[1] Blockwise Parallel Decoding: 一种加速LLM解码的并行方法
[2] Contrastive Decoding: 一种可提高文本生成质量的解码方法
[3] contrastive search: 一种提高文本生成质量的解码方法
[4] LXMERT: Learning Cross-Modality Encoder Representations from Transformers
[5] SimVLM: 图片和文本拼接成prompt做Language Model训练
[8] MolCLR: 基于GNN 的分子图表征对比学习框架
[9] CLIP4Clip: 利用 CLIP 做视频-文本检索
[10] CenterCLIP: 利用聚类算法提高文本-视频检索的效率
[11] Scaling Laws for Neural Machine Translation
[13] DocuNet: 把文档级关系抽取看作语义分割任务
[14] Segmenter: 用Transformer 做语义分割
[15] Swin Transformer: 一种层级 ViT 模型
[16] VALOR: Vision-Audio-Language三模态模型和数据集
[17] Multimodal Transformer: 多模态的院内死亡风险预测模型
[18] HiTANet: 层级Time-Aware Attention Networks做疾病风险预测
[19] TranSalNet: 融合 CNN+Transformer 做视觉显著性预测
[20] TransUNet: 将Transformer Encoder 融入 U-Net 做医学图像分割
[21] Swin-Unet: 只用Swin Transformer构建Unet 结构做医学图像分割
[22] iGPT: Generative Pretraining from Pixels
[25] DeepWalk: Random Walk + word2vec 学习图节点向量表示
[26] Science BERT: 使用论文数据预训练的 BERT 模型
[27] BioBERT: 生物医学领域自己的 BERT 模型
[28] Clinical BERT: 使用 MIMIC 数据集继续训练 BERT 模型
[30] node2vec=skip-gram+bfs+dfs
[重读经典, 常读常新][35] 注意力机制在 NLP 领域的诞生
[重读经典,常读常新][36]注意力机制在 NLP 领域的诞生 2
[重读经典,常读常新][38] Transformer: Attention Is All You Need
[40] GAT: GCN + Self-Attention
[42] GraphSAGE: 基于特征的节点向量(图表示)学习方法
[43] Tail-GNN: 提升 graph 中尾节点向量的质量
[48] K-EmoCon: 自然对话场景下采集的情感识别数据集
[50] NRMS: 多头自注意力模型(MHSA)做新闻推荐
[51] EEG Conformer: 融合 CNN 和 Transformer处理 EEG 数据
[52] 多模态方法分析 EEG 和 Language 的关联
[53] LightGCN: 为推荐系统设计的简化线性 GCN
[55] GRCN: 计算推荐系统二分图中 u 和 i 的权重
[56] LATTICE: 为多模态推荐系统引入 item-item graph
[62] GraphRec: 面向社交网络推荐的 GNN 模型
[63] ProtMD: 利用 MD 数据预训练蛋白质表征模型
[64] DMSGer: 多尺度动态GCN用于高光谱图像分类
[68] ChatGPT vs BERT: 文本语义理解哪家强?
[69] LLMRec: 使用ChatGPT为推荐模型二分图引入先验知识
[70] Gemini 1.0 Google对抗OpenAI的多模态大模型
[71] Generate & Rank: 用多任务框架解决数学应用题
[73] TabTransformer: 用Transformer处理表格型数据
[74] Chain-of-Thought Prompting:激发LLM的推理能力
[76] Plan-and-Solve Prompting: 一种先列计划再推理的Zero-shot-CoT
[80] DRLHF: Deep Reinforcement Learning from Human Preferences
[81] 从human preference和专家示例中学习奖励函数
[83] IDvs.MoRec: 用item模态数据代替item id做推荐
[84] Multi-View GCN: 多视角融合多模态数据做推荐
[85] LightGT:将Transformer用到多模态推荐
[87] VideoBERT: 将BERT模型扩展到视频数据
[88] ViLBERT: Vision-and-Language BERT
[89]VisualBERT: Another Vision-and-Language BERT
[91] BLIP: Bootstrapping Language-Image Pre-training
[92] BLIP-2: 用Querying Transformer对齐图片和文本
[93] InstructGLM: 探索让LLMs成为Graph Foundation Model
[94] Prefix-Tuning: 一种轻量级fine-tuning方法
[95] GraphLLM: 利用Prefix Tuning提升LLMs对graph数据的理解
[96] InstructGraph: 用代码形式表示graph
[97] Graph-LLM: 如何将LLMs用于Graph节点分类
[98] metapath2vec: word2vec+异构图
[99] LLaVA: 多模态模型如何低成本的做视觉指令微调
[102] GraphGPT: 对Graph+LLMs进行Graph指令微调
[103] Transformer-XL = Recurrence + Transformer
[104] DygFormer: Transformer+1-hop邻居编码做动态图链接预测
[105] scaling fine-tuning 数据量 vs scaling 模型参数
[107] AlpaGasus: 利用ChatGPT对指令微调数据集进行过滤
[110] Natural Instructions: 对BART做指令微调
[111] LLaVA-1.5: 对LLaVA的小改动,大提升
[115] HiMatch:在层级文本分类任务中考虑文本和类别标签匹配
[118]Graph-Mamba:Graph建模,Mamba也来掺和掺和
[119] DyGFormer: Transformer用于动态图链接预测
[121] DyG-Mamba: Mamba用于动态图链接预测
[124] GPO:像梯度下降算法那样设计meta-prompt
[127] Quiet-STAR: 或许隐藏着OpenAI o1的推理秘密
[128] self-refine: 让LLM自己修改outupt
[129] Xwin-Math-7B: LLaMA-2 7B模型也能有不错的数学能力
[130]V-STaR: DPO Verifier + STaR提升LLM推理能力
[131] self-consistency: 配合CoT prompt大幅提升LLM推理能力
[132]Verifier: 来自OpenAI的提升LLM(数学)推理的方案
[133] CoRe: Verifier+MCTS+迭代 提升LLM(数学)推理能力
[134] Let’s Verify Step by Step
[135] Math-Shepherd: 自动创建Process Verifier训练集
[136] OmegaPRM: MCTS+二分查找 高效地自动构建Process Verifier训练集
[137] Generative Verifiers: 生成式Verifier模型
[138] Thinking LLMs: 利用偏好学习提升LLM的通用推理能力
[141] GSM-Symbolic: LLM不会数学推理?| No
[142] Visual-ARFT: 一种基于可验证奖励(RLVR)的多模态 Agent 强化训练方法
[144] ToRL: 让Qwen-math学会生成代码求解数学题
[145] ZTRL: 让Qwen base学会生成代码求解数学题
[147] Intuitor: 不要RLHF和RLVR,如何创建reward?
[148] ToolN1: 如何将LLM+RL+tool扩展到非数学领域
[149] Search R1: 如何做LLM+RLVR+搜索引擎tool
[150] R1-Searcher: 两阶段法做RLVR + search tool
[151] ReSearch: 让llm学会推理是使用search tool
[152] Tool-Star: 如何让LLM学会使用多种tool推理
[153] START: 如何用Hint+SFT唤醒QwQ的工具能力?
[154] ZeroSearch: 零API成本+RLVR训练LLM使用搜索
[155] WebDancer: 如何让llm有更强的信息检索能力
[156] RRec: 如何基于llm构建先推理再推荐的模型?
[157] WebGPT: 用SFT+RLHF训练GPT-3使用搜索引擎
[158] Toolformer: 自监督+SFT让llm学会使用tool
[159] HuggingGPT: prompt驱动LLM指挥model工作
[160] ToolkenGPT: 将工具token化与向量化
[161] ToolLLM: 构建超大规模API指令微调数据
[162] CRITIC: LLM通过tool辅助批评,然后自我纠错
[163] ToRA: 探索TIR + sft多样性 做数学任务
[164] Reinforcement Pre-Training: 如何做大规模通用领域的RLVR训练
[165] DeepMath-103K: 高质量高难度的数学数据集
[166] Soft Thinking: 引入连续空间概念的解码策略
[167] DeepResearch Bench: 博士级任务 + LLM-as-a-Judge,评测DeepResearch Agent的新基准
[168] Kimi-Researcher: 看看Kimi如何做DeepResearch
[169] ReasoningNCP: 如何将RLVR应用于长故事生成任务?
[170] AutoRefine: 在search + TIR推理时,让llm对检索结果先精炼再推理
[171] Thinkless: SFT+DeGRPO两阶段训练,让推理模型具备混合推理能力
[172] RCO: 面向改进(refine)的批评模型(critic model)优化
[173] MassTool: 在Tool-Augmented LLM中用于高效工具召回
[174] 第二代 Skywork open reward model
[175] WebSailor: 要想LLM Deep Search能力强,训练集必须高难度
[176] HiRA: 将TIR工具推理拆解为Multi-Agent
[177] mem0: 如何为llm实现记忆(memory)机制
[178] LongWriter: 通过生成长输出数据做sft提升llm的长文生成能力
[179] LongWriter-Zero: 用RLVR的方式训练得到reasoning llm进行长文生成任务
[180] Multimodal DeepResearcher:如何生成包含可视化图表的技术报告?
[181] MemoryAgentBench: 专门测试Agent的memory能力
[182] DualDistill:通过双教师轨迹拼接蒸馏+自蒸馏 提升数学推理能力
[183] DeepSeek-GRM: 如何训练支持多输入格式的Reward Model,如何做RM的Inference-Time scaling
[184] MemoryOS:像操作系统段页式内存管理那样设计LLM Agent Memory架构
[185] 快手KAT-V1:如何让llm学会自主决定“要不要思考”?
[186] Agent KB: 用五元组表示可迁移的agent经验
[187] MEM1: 针对TIR(Tool-Integrated Reasoning)场景的Memory机制
[188] Proxy-Tuning:用小模型引导大模型的零参数调优方法
[189] ThinkLogit: 将Proxy-tuning方法扩展到reasoning llm
[190] Seed-X: 专注于多语言翻译的开源7B llm
[191] WebShaper: 用集合论重新解释信息检索任务
[192] DeepWriter: 基于本地资料的多模态写作助手
[193] Deep Cognition: 如何在Deep Research任务中做好人机交互
[194] Checklist自动生成、打分和refinement
[196] AlphaEvolve: llm + 演化算法 for 科学/工程问题
[197] Multi-TAG: 多工具ensemble的prompt method for TIR
[198] DSPy GEPA: 将演化算法引入prompt优化
[199] Reasoning模型的Inverse Scaling Laws
[200] ARPO:基于GRPO的熵感知TIR策略优化方法
[201] AutoTIR: 让LRM具备多工具自主选择的能力
[202] MemTool:在多轮对话中如何动态管理每一轮query的工具调用集合
[203] TTD-DR: 基于草稿迭代更新的DeepResearch方案
[204] CollabLLM: 从单轮response优化到多轮对话的协作优化
[205] MetaAgent: Prompt-based + 双Agent + 自我演化(Self-Evolution) for TIR
[206] Efficient Agents:专注于性价比的agent框架
[207] Cognitive Kernel-Pro: 腾讯AI Lab开源的multi-agent deep research方案
[208] CoAct-1:基于orchestrator-worker 架构的multi-agent computer use agent
[209] R-Zero: 无需训练集、基于Challenger–Solver协作来提升llm math reasoning能力
[210] 聊一聊最近比较火的Hierarchical Reasoning Model模型
[211] AWorld: 包含基于Execution–Guard的multi-agent架构的agent开发框架
[212] SSRL:通过llm Self-Search来降低Web Agent训练成本
[213] PASR:让LLM在generation过程中主动self-refine
[214] Chain-of-Agents:通过Multi-Agent System蒸馏 + RLVR 构建具备TIR能力的Agent Foundation Model
[215] Atom-Searcher:基于细粒度PRM的Web Agent