论文库
收录 95 篇经过筛选的 LLM 核心论文,每篇附双语 TLDR。
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
DeepSeek-R1 展示了纯粹通过强化学习(无监督微调启动)就能涌现出类 o1 的链式推理能力, 且主要使用 GRPO(组相对策略优化)而非 PPO。完全开源(权重 + 训练细节), 在多项推理基准上与 OpenAI o1 持平,是 2025 年最重要的开源 LLM 成果之一。
- Model Context Protocol (MCP)
模型上下文协议(MCP)是 Anthropic 提出的开放标准,规定了 LLM 应用如何与外部工具、 数据源和服务进行标准化通信。通过统一的"resources/tools/prompts"接口, 任何 MCP-compatible 的工具都可以无缝接入任何 MCP-compatible 的模型, 目标是成为 AI 工具调用的 USB 标准。
- The Llama 3 Herd of Models
Meta 的 LLaMA 3 系列技术报告,覆盖从 8B 到 405B 参数的多个模型。详细介绍了数据处理 (15T tokens,多语言)、架构改进(GQA、RoPE 扩展)、训练流程(SFT + RLHF + DPO) 以及与多模态扩展的整合。LLaMA 3 405B 是性能最强的开源大模型之一。
- Mixtral of Experts
Mixtral 8x7B 是第一个广泛开源的 MoE 语言模型:8 个专家网络,每个 token 选择 2 个, 实际激活参数约 13B 而总参数 47B。在推理成本接近 13B 密集模型的情况下, 性能媲美或超过 LLaMA 2 70B,证明了 MoE 在开源模型上的可行性。
- OpenAI o1 System Card
OpenAI o1 的系统卡,展示了通过大规模强化学习训练"慢思考"模型的路线: 模型在回答前进行长时间的内部推理链,在数学竞赛和代码题上大幅超越 GPT-4。 这标志着 LLM 从"快思考"到"慢思考"的范式转变,也是 DeepSeek-R1 等模型的直接先驱。
- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
GQA(分组查询注意力)是 MHA(多头注意力)和 MQA(多查询注意力)的折中方案: 将 KV 头的数量分成若干组,每组共享 KV,显著减少了 KV 缓存内存占用, 同时保持接近 MHA 的模型质量。LLaMA 2/3、Mistral 等主流模型都采用了 GQA。
- GPT-4 Technical Report
工业界报告而非完整论文,但首次明确把"可预测的 scaling"用作产品交付承诺,并系统披露安全/红队流程。是 LLM 从"研究 demo"到"基础设施"的转折点。
- GPT-4V(ision) System Card
第一份产品级多模态 LLM 的安全/能力披露文档。把"图像 + 文本"统一进 ChatGPT,是 GPT-4o 端到端语音/图像/视频之前的关键一步。
- Direct Preference Optimization: Your Language Model is Secretly a Reward Model
DPO(直接偏好优化)证明了 RLHF 中的奖励模型 + RL 两步可以合并为一步有监督学习: 直接在偏好数据上优化语言模型参数,数学上等价于最优 RLHF 策略。 DPO 因其简洁高效成为对齐研究和开源社区的主流替代方案。
- Alpaca: A Strong, Replicable Instruction-Following Model
用 52K 条 self-instruct 数据 + LLaMA 7B,5 美元复刻 GPT-3.5 风格回答。开启开源指令微调浪潮,是 2023 年那场"羊驼大战"的起点。
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models
Tree of Thoughts(ToT)将问题求解建模为树搜索:LLM 生成多个"思维步骤"作为树节点, 用评估函数打分并进行 BFS/DFS 搜索。在需要复杂规划的任务(如 24 点游戏)上, ToT 比普通 CoT 提升巨大,是 o1 风格慢思考的先驱工作。
- Constitutional AI: Harmlessness from AI Feedback
Anthropic 的 Constitutional AI(CAI)方法:用一组明文"宪法"原则,让模型先进行自我批评和 修订(SL-CAI 阶段),再用 AI 反馈代替人类反馈做 RLHF(RLAIF 阶段)。 这减少了对人工标注的依赖,是 Claude 系列模型对齐的核心技术。
- FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
FlashAttention 通过 IO-aware 的分块计算,在不牺牲精度的前提下,将注意力计算的内存 从 O(N²) 降至 O(N),速度提升 2-4 倍。它改变了长上下文训练的可行性边界, 是现代高效 LLM 训练和推理不可或缺的底层优化。
- Training Compute-Optimal Large Language Models
提出了 Chinchilla 法则:在固定算力预算下,模型参数量和训练数据量应该同比例增长 (而非此前主流认为的参数增长更重要)。这重新定义了 LLM 训练的最优策略, Chinchilla 70B 在多个基准上超越了 Gopher 280B。
- Training language models to follow instructions with human feedback
InstructGPT 论文,提出了 RLHF 三阶段训练方法(SFT → 奖励模型 → PPO 强化学习), 让语言模型从"预测下一个词"转变为"按人类意图回答问题"。这是 ChatGPT 的直接前身, 开创了对齐技术的主流路线。
- Self-Consistency Improves Chain of Thought Reasoning in Language Models
自洽性(Self-Consistency)是对 CoT 的重要改进:不再贪心解码单条推理链, 而是采样多条不同的推理路径,然后取答案出现最多的那个(多数投票)。 这简单的技巧在多个推理基准上将准确率提升了 10-20 个百分点。
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
提出 Chain-of-Thought(思维链)提示技术:通过在提示中加入中间推理步骤, 可以大幅提升大语言模型在数学、逻辑、常识推理等任务上的表现。 这个简单技巧把 LLM 的推理能力推向了接近人类的水平。
- ReAct: Synergizing Reasoning and Acting in Language Models
ReAct 框架将推理(Reasoning)和行动(Acting)交织在一起:LLM 先思考(Thought), 再执行工具调用(Action),观察结果(Observation),如此循环。这是现代 AI Agent 框架的原型,直接影响了 LangChain、AutoGPT 等 agent 框架的设计。
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Switch Transformer 是第一个在实践中将 Transformer 扩展到万亿参数的架构。通过混合专家 (MoE)机制,每个 token 只激活一小部分参数("稀疏激活"),在相同算力下达到了比密集模型 更好的效果。今天 GPT-4、Mixtral 等大模型都可能使用了类似架构。
- LoRA: Low-Rank Adaptation of Large Language Models
LoRA 通过冻结预训练模型权重,只训练两个低秩矩阵的乘积(秩 r 远小于原始维度), 把微调的可训练参数量降低了 10000 倍。这使得在消费级 GPU 上微调大模型成为可能, 几乎成为当今最主流的参数高效微调(PEFT)方法。
- RoFormer: Enhanced Transformer with Rotary Position Embedding
RoPE(旋转位置编码)是目前主流 LLM(LLaMA、Mistral、Qwen 等)采用的位置编码方案。 通过将位置信息以旋转矩阵的形式融入注意力计算,它能优雅地处理相对位置关系, 且在上下文长度外推时表现比绝对位置编码好得多。
- Language Models are Few-Shot Learners
OpenAI 的 GPT-3 论文,展示了 1750 亿参数的语言模型通过 few-shot in-context learning 能在无需微调的情况下完成各种任务。这篇论文确立了"规模即能力"的范式,并开创了提示工程这个方向。
- Scaling Laws for Neural Language Models
OpenAI 的规模定律论文,发现语言模型的性能(cross-entropy loss)与模型参数量、数据集大小 和计算量之间存在幂律关系。这使得在小规模实验中就可以预测大规模训练的结果,是 LLM 军备竞赛的 理论依据,也直接导致了 GPT-3 的诞生。
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
RAG(检索增强生成)将预训练语言模型与信息检索系统结合:对于每个查询,先从知识库 检索相关文档,再将文档拼接进上下文后生成答案。这解决了语言模型知识过期和 幻觉问题的一大途径,是今天企业 AI 应用的核心架构之一。
- Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
T5 将所有 NLP 任务统一为"文本到文本"格式(例如分类任务也输出标签文字而非类别 ID), 系统性地探索了数据集、架构、预训练目标、规模等因素对迁移学习的影响。这种统一范式 后来成为指令微调和指令跟随模型的重要思想来源。
- Language Models are Unsupervised Multitask Learners
GPT-2 展示了一个仅在未标注网络文本上训练的 15 亿参数语言模型,能在无任何微调的情况下 以零样本方式完成多种语言任务。这挑战了"NLP 任务必须任务专属训练"的传统观念, 也因担心被滥用而成为第一个"延迟发布"的 AI 模型。
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT 用掩码语言模型(MLM)和下一句预测(NSP)在大规模文本上预训练双向 Transformer, 然后通过微调适配下游任务。BERT 一举刷新了 11 项 NLP 基准,确立了"预训练+微调"的现代 NLP 范式,是 GPT 系列和后续模型的主要竞争对手。
- Deep contextualized word representations
ELMo 提出了"语境化词嵌入"的概念:同一个词在不同语境中有不同的向量表示(例如 bank 在金融 和河岸两种语境中向量不同)。ELMo 用双向 LSTM 实现语境化,在多个 NLP 任务上刷新了 SOTA, 为 BERT 和后续预训练模型奠定了思想基础。
- Improving Language Understanding by Generative Pre-Training (GPT-1)
OpenAI 首次提出 decoder-only + 自回归预训练 + 任务微调;为后来 GPT-2/3/4 系列奠定路线。当时不如 BERT 火,几年后被证明是真正的赢家方向。
- Deep Reinforcement Learning from Human Preferences
RLHF(人类反馈强化学习)的奠基论文。作者展示了通过人类对比偏好来训练奖励模型, 再用该奖励模型指导强化学习,可以让 agent 学会难以用奖励函数显式描述的复杂行为。 这个框架后来被 InstructGPT/ChatGPT 直接采用。
- Attention Is All You Need
Transformer 架构的奠基之作。作者完全用注意力机制替代了 RNN/CNN,提出多头自注意力与位置编码, 在机器翻译任务上大幅超越此前所有模型。今天所有主流 LLM 的底层架构都源于此论文。
- Neural Machine Translation by Jointly Learning to Align and Translate
注意力机制的开山之作(在 Transformer 之前)。作者发现 Seq2Seq 的固定长度瓶颈向量限制了翻译 质量,提出让解码器在生成每个词时都能"回顾"编码器的所有隐状态,动态分配注意力权重。 这个思想直接演化为 Transformer 的自注意力。
- Sequence to Sequence Learning with Neural Networks
Seq2Seq 架构(编码器-解码器)的奠基之作。通过两个 LSTM 的"压缩-生成"结构,首次让神经网络 能够进行变长序列到变长序列的转换,在机器翻译上取得突破性进展,也直接启发了后来 Transformer 的编解码器设计。
- Efficient Estimation of Word Representations in Vector Space
Word2Vec 提出了词向量(词嵌入)的概念:通过在大规模文本上训练神经网络,让语义相近的词 在向量空间中距离相近。"king - man + woman ≈ queen"的类比关系让世人看到了词嵌入的威力, 为后来所有语言模型的嵌入层奠定了基础。
- abdin2024-phi3
3.8B Phi-3-mini 在多个评测上接近 GPT-3.5;继续印证"高质量合成 + 课程数据"的 Phi 配方。是端侧/本地大模型的代表工作。
- ai2024-yi
李开复 01.AI 的全栈技术报告,强调"小而强 + 数据质量"。Yi-34B 长期是开源中英 LLM 第一梯队,也是 200K 上下文开源模型早期代表。
- azar2023-ipo
用 Ψ-PO 框架统一 RLHF/DPO,并指出 DPO 在 BT 假设下会过拟合;提出 IPO 损失更稳健。是理解"为什么 DPO 不总是 work"的理论必读;另见 KTO、SimPO。
- alayrac2022-flamingo
用 Perceiver Resampler 把图像特征接到冻结的 LLM 上做 few-shot 视觉问答。是"插件式多模态"主流路线(LLaVA、IDEFICS 等)的鼻祖。
- bai2022-hh
Anthropic 早期 RLHF 论文,HH-RLHF 数据集自此成为开源对齐研究的"MNIST"。是理解 helpful vs harmless 张力的最早系统化工作。
- bai2023-qwen
阿里通义千问首份完整技术报告,覆盖 1.8B–72B 全尺寸,并强调中英双语 + tokenizer 友好度。是中文开源 LLM 系列的代表性奠基;后续 Qwen2/2.5 是 2024-2025 开源 SOTA。
- borgeaud2022-retro
DeepMind 在预训练阶段就引入 chunked retrieval,让 7B 模型匹敌 175B GPT-3。证明检索不只是 RAG 推理时招式,也是预训练范式的另一种可能。
- chen2021-humaneval
提出 Codex 模型 + HumanEval 基准(164 道编程题)。HumanEval 至今是 coding 模型的"心电图指标";这篇论文也是 GitHub Copilot 的根。
- chen2023-longlora
用 shifted sparse attention + LoRA 把 7B 模型扩到 100K 上下文,且只用一台 8xA100。是长上下文微调的工程标杆;另见 YaRN、PoSE。
- chen2023-spec-sampling
DeepMind 同期独立提出 speculative sampling,理论上证明可在保持采样分布不变的前提下加速。和 Leviathan 一起为这条路线定调;另见 Medusa、EAGLE 等后续。
- chowdhery2022-palm
Google 540B 模型,展示更大规模带来的"涌现"行为(多步推理、解释笑话),并首次大规模使用 Pathways 系统。是 GPT-3 之后另一条独立的工程路线。
- clark2020-electra
用 replaced token detection 替代 MLM,让小模型也能拿到 BERT-large 级表现。是"预训练目标决定样本效率"这条线索的代表作。
- dao2023-flashattention2
用更激进的 warp 级并行和 work partition 把 FlashAttention 再翻倍。今天 vLLM / SGLang / Megatron 训练后端基本都升级到 FA-2。
- deepseek2024-v2
引入 Multi-head Latent Attention (MLA) 把 KV cache 砍到 1/13,让 236B MoE 推理价格碾压同档闭源。MLA 是 V3/R1 推理性价比的核心来源。
- deepseek2024-v3
671B 参数(37B 激活)MoE,14.8T token 训练;首次大规模在生产 LLM 上跑通 FP8 训练 + Multi-Token Prediction,并把训练成本压到 $5.6M。震动整个行业。
- dettmers2022-llmint8
揭示大模型激活中的"emergent outliers",并提出混合精度方案。bitsandbytes 库背后的核心工作,让 175B 模型第一次能塞进 8 卡 A100。
- dettmers2023-qlora
4-bit NF4 + LoRA + paged optimizer,让 65B 在单张 48GB 显卡上 SFT。开源社区微调 LLaMA-2/3、Qwen 几乎 100% 用这套方案。
- du2021-glam
1.2T 参数 MoE 在 1/3 训练算力下达到 GPT-3 同等质量,是 MoE 路线"性价比胜出"的早期代表。Mixtral / DeepSeek-V2/V3 都是它的精神后裔。
- frantar2022-gptq
第一次实现"在单卡上 4-bit 量化 175B 模型而几乎不掉精度"。把 LLM 推理硬件门槛从 8xA100 拉到一张消费级显卡,普及"开源大模型本地跑"。
- gao2022-hyde
让 LLM 先"假装"生成一个回答,再用它的 embedding 检索真文档。零监督、强泛化,是 RAG 时代最常被复用的检索增强 trick 之一。
- gemini2023-team
Google 的多模态模型族(Ultra/Pro/Nano),"原生多模态"叙事的代表。1.5 系列后续把上下文推到 1M-10M token,是长上下文工业落地的标杆。
- gunasekar2023-phi1
微软用 7B token 高质量"教科书级"合成数据训出 1.3B 在 HumanEval 上接近 GPT-3.5。把"数据质量 >> 数据规模"的故事讲到极致,开启 Phi 系列。
- hendrycks2020-mmlu
57 学科 1.4 万道考题,从此"刷 MMLU"成为衡量 LLM 通用能力的事实标准。即使在 2025 年仍是模型卡里第一行的指标;另见后续 MMLU-Pro。
- howard2018-ulmfit
第一篇明确提出"通用语言模型预训练 → 任务微调"流水线,并给出 discriminative LR、slanted triangular schedule 等关键 trick。和 ELMo 一起是 "BERT 之前最后一公里"。
- jiang2023-mistral7b
用 GQA + sliding window attention,让 7B 模型干翻 LLaMA-2 13B;并第一次以"Apache 2.0 + 直接放权重"姿态进入舞台。引领欧洲开源 LLM 力量。
- jimenez2024-swebench
用 12 个真实 Python 仓库 2294 个 issue 评测代码模型"端到端解决 bug"的能力。一夜成为 coding agent 行业标准评测,几乎每篇 coding agent 论文都报 SWE-bench 分数。
- kalchbrenner2016-bytenet
用扩张卷积做 seq2seq,把序列建模从"必须 RNN 顺序计算"中解放出来;和同期 ConvS2S 一起是 Transformer 之前"并行序列建模"的最强尝试。
- karpukhin2020-dpr
双塔 BERT + in-batch negatives 训出第一个工业级稠密检索器,几乎一夜淘汰 BM25。今天向量检索(FAISS、pgvector)的工程范式从这里定型。
- kim2014-textcnn
用 CNN + 预训练词向量做文本分类,证明"预训练 embedding + 简单架构"能打过手工特征工程,是预训练范式渗入 NLP 的早期标志。
- kojima2022-zeroshot-cot
一句 "Let's think step by step" 就能在数学题上把准确率从 ~17% 拉到 ~78%。CoT 能力是模型自带、prompt 触发,这一发现震惊了整个社区。
- kwon2023-vllm
把操作系统的"分页内存"思想引入 KV cache,几乎消灭 OOM 浪费,让吞吐量翻 2-4 倍。vLLM 由此成为开源推理引擎事实标准;MCP/Agent 时代的算力底座。
- lee2023-rlaif
Google 系统性地证明 RLAIF 在多种任务上能匹敌 RLHF,把"AI 反馈替代人工"作为可扩展的对齐方案给出工程证据。
- leviathan2023-spec-decoding
用一个小 draft model 预测多个 token,再让大模型一次校验,几乎无损地获得 2-3x 加速。是当下所有推理引擎(vLLM、TensorRT-LLM)的标配技术之一。
- liang2022-helm
Stanford CRFM 系统化评测 30+ LLM × 多维度指标(准确性、鲁棒性、公平性、效率…),把"评测科学"立起来。是反"只看平均分"的代表性工作。
- lin2023-awq
发现"少数关键权重对应大激活",按重要性做 per-channel scaling。在 4-bit 上比 GPTQ 更鲁棒、推理更快,是当下 INT4 部署的主流方案之一。
- liu2019-roberta
用更多数据、更长训练、去掉 NSP,证明 BERT 远未训练充分。重要意义不只是更强的模型,而是首次清晰展示"训练配方"本身就是核心研究问题。
- liu2023-llava
CLIP 视觉 encoder + LLaMA + GPT-4 合成的多模态指令数据,用极少算力做出第一个开源 GPT-4V 风格模型。开源多模态生态(LLaVA-1.5/1.6、Qwen-VL、InternVL)的范式起点。
- luong2015-attention
系统化地比较 global vs local attention、不同打分函数(dot / general / concat),是后人讲 "attention score 是怎么算的" 时最常引用的工程化版本。
- mikolov2013-skipgram-negsampling
word2vec 的 NeurIPS 版正篇,引入 Negative Sampling、Hierarchical Softmax 与 phrase-level 向量。之后 GloVe / fastText / 大模型 embedding 层的训练目标都受其影响。
- peng2023-yarn
在 RoPE 上做 NTK-aware 插值 + 温度修正,少量训练即可把上下文扩到 64K-128K。当下大多数开源模型扩长基本走 YaRN 或其变体。
- perez2022-redteaming
DeepMind 用一个 LLM 自动产生攻击 prompt 来红队另一个 LLM,把红队工程化。安全/越狱研究从此从"人工搜 prompt"走向自动化范式。
- press2021-alibi
把位置信息变成 attention 上的线性偏置,零参数即可外推到训练长度数倍以上。是早期长上下文方案的代表,与 RoPE 形成两条路线之争。
- qwen2024-qwen25
18T token 预训练,0.5B–72B 全家桶 + 专业 Coder/Math 子家族;是 2024-2025 最稳定的开源中英 LLM 之一。Hugging Face 下载/微调量长期 Top。
- radford2021-clip
用 4 亿对图文做对比学习,得到通用视觉 encoder。CLIP embedding 至今是几乎所有多模态系统(DALL·E、Stable Diffusion、LLaVA)的视觉前端。
- schick2023-toolformer
让模型自己生成"调用 API 的 token"并通过自监督评估有用性。是 function-calling / tool-use 训练范式的奠基论文,直接影响 GPT-4 function calling 的设计。
- shah2024-flashattention3
利用 H100 的异步 TMA 与 FP8,把 attention 推到 1.2 PFLOPs,并保持数值精度。是 Hopper 架构上长上下文 + FP8 训练的关键依赖。
- shazeer2019-mqa
提出 Multi-Query Attention:所有 head 共享同一份 K/V,把 KV cache 占用打到 1/h。今天 KV cache 优化、长上下文推理的故事都从这篇 5 页短文开始。
- shinn2023-reflexion
让 agent 在失败后用自然语言做"复盘",下一轮把反思塞进 prompt。"无梯度的自我改进"思路被广泛复用于 coding agent、SWE-agent。
- snell2024-test-time-compute
系统性给出"推理时多花 compute"的 scaling law:在固定预算下,对小模型加推理时搜索往往比训练更大模型更划算。是 o1/R1 时代理论支撑。
- stiennon2020-summarize
OpenAI 把 RLHF 第一次用到大型语言模型(摘要),证明 RLHF 比 SFT/MLE 在人类偏好上系统性更好。是 InstructGPT 的直接前身。
- touvron2023-llama
Meta 把"小而精 + 大规模 token"的 Chinchilla 配方实操出来,并开放权重。LLaMA 1 直接催生了开源 LLM 大爆炸(Alpaca / Vicuna / Mistral / Qwen 全部受益)。
- touvron2023-llama2
第一个商用许可的高质量开源 chat 模型,并公开了 RLHF 配方(PPO + GAtt)。直接把开源生态推进到"接近 ChatGPT 体验"的阶段。
- wang2022-self-instruct
用 GPT-3 自己生成指令-输出数据再蒸馏到自己。Stanford Alpaca / Vicuna 都基于这套,开启"用大模型造数据训小模型"的合成数据时代。
- wei2023-jailbroken
系统化分类越狱手段(在分布外、目标冲突),并解释为什么 RLHF 难以根治。是越狱研究"taxonomy"参考资料。
- xiao2022-smoothquant
把激活的 outlier 通过等价数学变换"挪"到权重上,使得 INT8 推理可行。是 GPU FP8/INT8 部署能 work 的关键工程发现。
- yang2019-xlnet
提出 Permutation LM 把 AR 和 AE 的好处合并,配合 Transformer-XL 长序列;展示"预训练目标"本身仍然是开放问题,是 BERT 之后最有想象力的替代品。
- yang2024-sweagent
提出 ACI(Agent-Computer Interface)概念,强调"agent 用什么工具/界面 ≥ 用什么模型"。把 GPT-4 + 良好 ACI 在 SWE-bench 提升 6 倍,奠定 coding agent 工程方法论。
- zeng2022-glm130b
清华+智谱开放的中英双语 130B 模型,是中国大模型工业化最早的代表性技术报告。后续 ChatGLM-6B/9B 把开源中文对话推到普及量级。
- zhou2022-least-to-most
"先把难题拆成易题,再依次解决"是另一条与 CoT 平行的推理范式,对组合泛化任务尤其有效。和 CoT/ToT 一起构成"如何引导大模型分步思考"的三件套。
- zheng2023-mtbench
提出 GPT-4-as-judge + 人类偏好众包 (Chatbot Arena) 评测对话能力。MT-Bench 和 Arena ELO 至今是社区比较模型"对话能力"的事实双标准。
- zou2023-universal-attack
用 GCG 算法找到一段乱码后缀,能把对齐过的 LLaMA-2/Vicuna 全打穿,且攻击在多个闭源模型间迁移。震撼整个安全社区,让"对齐脆弱性"成为主流话题。