Skip to content

10Kpapers/1W-Paper-Notes

Repository files navigation

一万篇论文笔记计划

[1] Blockwise Parallel Decoding: 一种加速LLM解码的并行方法

[2] Contrastive Decoding: 一种可提高文本生成质量的解码方法

[3] contrastive search: 一种提高文本生成质量的解码方法

[4] LXMERT: Learning Cross-Modality Encoder Representations from Transformers

[5] SimVLM: 图片和文本拼接成prompt做Language Model训练

[6] CoCa: 在图生文过程中加入对比学习

[7] DiffSTG: 将扩散模型用于处理时空数据

[8] MolCLR: 基于GNN 的分子图表征对比学习框架

[9] CLIP4Clip: 利用 CLIP 做视频-文本检索

[10] CenterCLIP: 利用聚类算法提高文本-视频检索的效率

[11] Scaling Laws for Neural Machine Translation

[12] DocRED: 一个大规模文档级关系抽取数据集

[13] DocuNet: 把文档级关系抽取看作语义分割任务

[14] Segmenter: 用Transformer 做语义分割

[15] Swin Transformer: 一种层级 ViT 模型

[16] VALOR: Vision-Audio-Language三模态模型和数据集

[17] Multimodal Transformer: 多模态的院内死亡风险预测模型

[18] HiTANet: 层级Time-Aware Attention Networks做疾病风险预测

[19] TranSalNet: 融合 CNN+Transformer 做视觉显著性预测

[20] TransUNet: 将Transformer Encoder 融入 U-Net 做医学图像分割

[21] Swin-Unet: 只用Swin Transformer构建Unet 结构做医学图像分割

[22] iGPT: Generative Pretraining from Pixels

[23] 如何对 CLIP 进行 fine-tuning?

[24] ELMo: 生不逢时的动态词向量

[25] DeepWalk: Random Walk + word2vec 学习图节点向量表示

[26] Science BERT: 使用论文数据预训练的 BERT 模型

[27] BioBERT: 生物医学领域自己的 BERT 模型

[28] Clinical BERT: 使用 MIMIC 数据集继续训练 BERT 模型

[29] 不要停,继续预训练

[30] node2vec=skip-gram+bfs+dfs

[31] Non-local: 注意力机制的一种形态

[32] START: 自监督轨迹表示学习框架

[33] 线性复杂度的高效注意力机制:矩阵乘法的交换律

[重读经典, 常读常新][35] 注意力机制在 NLP 领域的诞生

[重读经典,常读常新][36]注意力机制在 NLP 领域的诞生 2

[37] 自注意力机制启蒙:用于句子编码

[重读经典,常读常新][38] Transformer: Attention Is All You Need

[39] LERT: 语言学信息增强的中文预训练模型

[40] GAT: GCN + Self-Attention

[41] CA-MSER: 多模态语音情感识别

[42] GraphSAGE: 基于特征的节点向量(图表示)学习方法

[43] Tail-GNN: 提升 graph 中尾节点向量的质量

[44] E-GAN: 用演化算法训练 GAN 模型

[45] HAN: 层级注意力模型用于篇章分类

[46] MO-EGAN: 用多目标演化算法训练GAN

[47] DiffDock:用扩散模型解决分子对接任务

[48] K-EmoCon: 自然对话场景下采集的情感识别数据集

[49] MIND: 一个大规模英文新闻推荐的公开数据集

[50] NRMS: 多头自注意力模型(MHSA)做新闻推荐

[51] EEG Conformer: 融合 CNN 和 Transformer处理 EEG 数据

[52] 多模态方法分析 EEG 和 Language 的关联

[53] LightGCN: 为推荐系统设计的简化线性 GCN

[54] MMGCN: 多模态推荐中建模用户单模态兴趣

[55] GRCN: 计算推荐系统二分图中 u 和 i 的权重

[56] LATTICE: 为多模态推荐系统引入 item-item graph

[57] SGL: 在 GCN 推荐模型中加入自监督学习

[58] MMGCL:多模态图对比学习

[59] SimGCL: 推荐系统中没有图增强的对比学习

[60] NCL: 构建邻居信息进行图对比学习

[61] LightGCL: 使用 SVD 进行图增强

[62] GraphRec: 面向社交网络推荐的 GNN 模型

[63] ProtMD: 利用 MD 数据预训练蛋白质表征模型

[64] DMSGer: 多尺度动态GCN用于高光谱图像分类

[65] SSLRec:自监督推荐模型框架哪家强?

[66] GLUE: 多任务的句子语义理解评估平台

[67] SuperGLUE: 难度升级的 GLUE

[68] ChatGPT vs BERT: 文本语义理解哪家强?

[69] LLMRec: 使用ChatGPT为推荐模型二分图引入先验知识

[70] Gemini 1.0 Google对抗OpenAI的多模态大模型

[71] Generate & Rank: 用多任务框架解决数学应用题

[72] 用LLM+验证器解决小学数学应用题

[73] TabTransformer: 用Transformer处理表格型数据

[74] Chain-of-Thought Prompting:激发LLM的推理能力

[75] Zero-shot-CoT:激发LLM的推理能力

[76] Plan-and-Solve Prompting: 一种先列计划再推理的Zero-shot-CoT

[77] Foundation model开发备忘录

[78] HGCLR: 将对比学习引入层级文本分类任务

[79] HBGL:结合全局和局部类别层级关系

[80] DRLHF: Deep Reinforcement Learning from Human Preferences

[81] 从human preference和专家示例中学习奖励函数

[82] MENTOR: 多级自监督学习for多模态推荐

[83] IDvs.MoRec: 用item模态数据代替item id做推荐

[84] Multi-View GCN: 多视角融合多模态数据做推荐

[85] LightGT:将Transformer用到多模态推荐

[86] BM3: 不用图增强做对比学习for多模态推荐

[87] VideoBERT: 将BERT模型扩展到视频数据

[88] ViLBERT: Vision-and-Language BERT

[89]VisualBERT: Another Vision-and-Language BERT

[90]ALBEF: 先对齐再融合多模态

[91] BLIP: Bootstrapping Language-Image Pre-training

[92] BLIP-2: 用Querying Transformer对齐图片和文本

[93] InstructGLM: 探索让LLMs成为Graph Foundation Model

[94] Prefix-Tuning: 一种轻量级fine-tuning方法

[95] GraphLLM: 利用Prefix Tuning提升LLMs对graph数据的理解

[96] InstructGraph: 用代码形式表示graph

[97] Graph-LLM: 如何将LLMs用于Graph节点分类

[98] metapath2vec: word2vec+异构图

[99] LLaVA: 多模态模型如何低成本的做视觉指令微调

[100] DySAT: 利用MHSA 进行动态图链接预测

[101] EvolveGCN:用RNN来生成GCN的参数

[102] GraphGPT: 对Graph+LLMs进行Graph指令微调

[103] Transformer-XL = Recurrence + Transformer

[104] DygFormer: Transformer+1-hop邻居编码做动态图链接预测

[105] scaling fine-tuning 数据量 vs scaling 模型参数

[106] LIMA: 指令微调数据量并非越多越好

[107] AlpaGasus: 利用ChatGPT对指令微调数据集进行过滤

[108] MMLU: 一个LLM评估数据集

[109] LIMIT: 指令数据多样性很重要

[110] Natural Instructions: 对BART做指令微调

[111] LLaVA-1.5: 对LLaVA的小改动,大提升

[112] Flan: LLM指令微调开山之作

[113] HiGPT: 异构图Graph+LLM大模型

[114] HiAGM: 层级感知的层级文本分类模型

[115] HiMatch:在层级文本分类任务中考虑文本和类别标签匹配

[116] HiTIN: 基于编码树的类别层级编码器

[117] HILL: HiTIN+对比学习

[118]Graph-Mamba:Graph建模,Mamba也来掺和掺和

[119] DyGFormer: Transformer用于动态图链接预测

[120] HiGen: 层级感知的文本标签生成

[121] DyG-Mamba: Mamba用于动态图链接预测

[122] 将NER看作机器阅读理解任务

[123] OPRO: 将LLM看作优化器

[124] GPO:像梯度下降算法那样设计meta-prompt

[125]Prompt优化和few-shot都好才是真的好

[126] STaR: 为LLM插上推理的翅膀

[127] Quiet-STAR: 或许隐藏着OpenAI o1的推理秘密

[128] self-refine: 让LLM自己修改outupt

[129] Xwin-Math-7B: LLaMA-2 7B模型也能有不错的数学能力

[130]V-STaR: DPO Verifier + STaR提升LLM推理能力

[131] self-consistency: 配合CoT prompt大幅提升LLM推理能力

[132]Verifier: 来自OpenAI的提升LLM(数学)推理的方案

[133] CoRe: Verifier+MCTS+迭代 提升LLM(数学)推理能力

[134] Let’s Verify Step by Step

[135] Math-Shepherd: 自动创建Process Verifier训练集

[136] OmegaPRM: MCTS+二分查找 高效地自动构建Process Verifier训练集

[137] Generative Verifiers: 生成式Verifier模型

[138] Thinking LLMs: 利用偏好学习提升LLM的通用推理能力

[139]为什么需要RL(HF)以及DPO推导

[140] 动态温度系数T和最近比较火的entropix

[141] GSM-Symbolic: LLM不会数学推理?| No

[142] Visual-ARFT: 一种基于可验证奖励(RLVR)的多模态 Agent 强化训练方法

[143] 腾讯混元 TurboS技术报告

[144] ToRL: 让Qwen-math学会生成代码求解数学题

[145] ZTRL: 让Qwen base学会生成代码求解数学题

[146] ToolRL: PRM版本的RLVR?

[147] Intuitor: 不要RLHF和RLVR,如何创建reward?

[148] ToolN1: 如何将LLM+RL+tool扩展到非数学领域

[149] Search R1: 如何做LLM+RLVR+搜索引擎tool

[150] R1-Searcher: 两阶段法做RLVR + search tool

[151] ReSearch: 让llm学会推理是使用search tool

[152] Tool-Star: 如何让LLM学会使用多种tool推理

[153] START: 如何用Hint+SFT唤醒QwQ的工具能力?

[154] ZeroSearch: 零API成本+RLVR训练LLM使用搜索

[155] WebDancer: 如何让llm有更强的信息检索能力

[156] RRec: 如何基于llm构建先推理再推荐的模型?

[157] WebGPT: 用SFT+RLHF训练GPT-3使用搜索引擎

[158] Toolformer: 自监督+SFT让llm学会使用tool

[159] HuggingGPT: prompt驱动LLM指挥model工作

[160] ToolkenGPT: 将工具token化与向量化

[161] ToolLLM: 构建超大规模API指令微调数据

[162] CRITIC: LLM通过tool辅助批评,然后自我纠错

[163] ToRA: 探索TIR + sft多样性 做数学任务

[164] Reinforcement Pre-Training: 如何做大规模通用领域的RLVR训练

[165] DeepMath-103K: 高质量高难度的数学数据集

[166] Soft Thinking: 引入连续空间概念的解码策略

[167] DeepResearch Bench: 博士级任务 + LLM-as-a-Judge,评测DeepResearch Agent的新基准

[168] Kimi-Researcher: 看看Kimi如何做DeepResearch

[169] ReasoningNCP: 如何将RLVR应用于长故事生成任务?

[170] AutoRefine: 在search + TIR推理时,让llm对检索结果先精炼再推理

[171] Thinkless: SFT+DeGRPO两阶段训练,让推理模型具备混合推理能力

[172] RCO: 面向改进(refine)的批评模型(critic model)优化

[173] MassTool: 在Tool-Augmented LLM中用于高效工具召回

[174] 第二代 Skywork open reward model

[175] WebSailor: 要想LLM Deep Search能力强,训练集必须高难度

[176] HiRA: 将TIR工具推理拆解为Multi-Agent

[177] mem0: 如何为llm实现记忆(memory)机制

[178] LongWriter: 通过生成长输出数据做sft提升llm的长文生成能力

[179] LongWriter-Zero: 用RLVR的方式训练得到reasoning llm进行长文生成任务

[180] Multimodal DeepResearcher:如何生成包含可视化图表的技术报告?

[181] MemoryAgentBench: 专门测试Agent的memory能力

[182] DualDistill:通过双教师轨迹拼接蒸馏+自蒸馏 提升数学推理能力

[183] DeepSeek-GRM: 如何训练支持多输入格式的Reward Model,如何做RM的Inference-Time scaling

[184] MemoryOS:像操作系统段页式内存管理那样设计LLM Agent Memory架构

[185] 快手KAT-V1:如何让llm学会自主决定“要不要思考”?

[186] Agent KB: 用五元组表示可迁移的agent经验

[187] MEM1: 针对TIR(Tool-Integrated Reasoning)场景的Memory机制

[188] Proxy-Tuning:用小模型引导大模型的零参数调优方法

[189] ThinkLogit: 将Proxy-tuning方法扩展到reasoning llm

[190] Seed-X: 专注于多语言翻译的开源7B llm

[191] WebShaper: 用集合论重新解释信息检索任务

[192] DeepWriter: 基于本地资料的多模态写作助手

[193] Deep Cognition: 如何在Deep Research任务中做好人机交互

[194] Checklist自动生成、打分和refinement

[195] RLCF:将checklist融入DPO

[196] AlphaEvolve: llm + 演化算法 for 科学/工程问题

[197] Multi-TAG: 多工具ensemble的prompt method for TIR

[198] DSPy GEPA: 将演化算法引入prompt优化

[199] Reasoning模型的Inverse Scaling Laws

[200] ARPO:基于GRPO的熵感知TIR策略优化方法

[201] AutoTIR: 让LRM具备多工具自主选择的能力

[202] MemTool:在多轮对话中如何动态管理每一轮query的工具调用集合

[203] TTD-DR: 基于草稿迭代更新的DeepResearch方案

[204] CollabLLM: 从单轮response优化到多轮对话的协作优化

[205] MetaAgent: Prompt-based + 双Agent + 自我演化(Self-Evolution) for TIR

[206] Efficient Agents:专注于性价比的agent框架

[207] Cognitive Kernel-Pro: 腾讯AI Lab开源的multi-agent deep research方案

[208] CoAct-1:基于orchestrator-worker 架构的multi-agent computer use agent

[209] R-Zero: 无需训练集、基于Challenger–Solver协作来提升llm math reasoning能力

[210] 聊一聊最近比较火的Hierarchical Reasoning Model模型

[211] AWorld: 包含基于Execution–Guard的multi-agent架构的agent开发框架

[212] SSRL:通过llm Self-Search来降低Web Agent训练成本

[213] PASR:让LLM在generation过程中主动self-refine

[214] Chain-of-Agents:通过Multi-Agent System蒸馏 + RLVR 构建具备TIR能力的Agent Foundation Model

[215] Atom-Searcher:基于细粒度PRM的Web Agent

[216] ReasonZoo: 对TIR(tool-integrated reasoning)的几点实验研究和分析

[217] Memento:记忆(Memory)驱动自进化Deep Research方案

About

一万篇论文笔记计划🍩

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published