论文库

📊 按年份分布

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

2025

🏷️ 按领域分布（Top 5）

预训练

架构

推理

对齐

应用

显示 112 / 112 篇

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — DeepSeek-AI (2025)

推理能力对齐

前置阅读： Let's Verify Step by Step

DeepSeek-R1 展示了纯粹通过强化学习（无监督微调启动）就能涌现出类 o1 的链式推理能力，且主要使用 GRPO（组相对策略优化）而非 PPO。完全开源（权重 + 训练细节），在多项推理基准上与 OpenAI o1 持平，是 2025 年最重要的开源 LLM 成果之一。
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone — Microsoft (2024)

预训练

前置阅读： Textbooks Are All You Need

3.8B Phi-3-mini 在多个评测上接近 GPT-3.5；继续印证"高质量合成 + 课程数据"的 Phi 配方。是端侧/本地大模型的代表工作。
Yi: Open Foundation Models by 01.AI — 01. AI et al. (2024)

预训练

前置阅读： LLaMA: Open and Efficient Foundation Language Models

李开复 01.AI 的全栈技术报告，强调"小而强 + 数据质量"。Yi-34B 长期是开源中英 LLM 第一梯队，也是 200K 上下文开源模型早期代表。
Model Context Protocol (MCP) — Anthropic (2024)

应用

前置阅读： Toolformer: Language Models Can Teach Themselves to Use Tools

模型上下文协议（MCP）是 Anthropic 提出的开放标准，规定了 LLM 应用如何与外部工具、数据源和服务进行标准化通信。通过统一的"resources/tools/prompts"接口，任何 MCP-compatible 的工具都可以无缝接入任何 MCP-compatible 的模型，目标是成为 AI 工具调用的 USB 标准。
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model — DeepSeek-AI (2024)

架构推理

前置阅读： Mixtral of Experts

引入 Multi-head Latent Attention (MLA) 把 KV cache 砍到 1/13，让 236B MoE 推理价格碾压同档闭源。MLA 是 V3/R1 推理性价比的核心来源。
DeepSeek-V3 Technical Report — DeepSeek-AI (2024)

架构混合专家

前置阅读： DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

671B 参数（37B 激活）MoE，14.8T token 训练；首次大规模在生产 LLM 上跑通 FP8 训练 + Multi-Token Prediction，并把训练成本压到 $5.6M。震动整个行业。
The Llama 3 Herd of Models — Meta AI (2024)

预训练

前置阅读： Llama 2: Open Foundation and Fine-Tuned Chat Models

Meta 的 LLaMA 3 系列技术报告，覆盖从 8B 到 405B 参数的多个模型。详细介绍了数据处理（15T tokens，多语言）、架构改进（GQA、RoPE 扩展）、训练流程（SFT + RLHF + DPO）以及与多模态扩展的整合。LLaMA 3 405B 是性能最强的开源大模型之一。
KTO: Model Alignment as Prospect Theoretic Optimization — Kawin Ethayarajh et al. (2024)

对齐

前置阅读： Direct Preference Optimization: Your Language Model is Secretly a Reward Model

提出 KTO（Kahneman-Tversky Optimization），仅需二元反馈（好/坏）即可对齐模型，无需像 DPO 那样需要成对偏好数据。将前景理论引入对齐优化，证明单条输出是否被喜欢的信号足以学习人类偏好。
Mixtral of Experts — Albert Q. Jiang et al. (2024)

混合专家架构

前置阅读： Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

Mixtral 8x7B 是第一个广泛开源的 MoE 语言模型：8 个专家网络，每个 token 选择 2 个，实际激活参数约 13B 而总参数 47B。在推理成本接近 13B 密集模型的情况下，性能媲美或超过 LLaMA 2 70B，证明了 MoE 在开源模型上的可行性。
SWE-bench: Can Language Models Resolve Real-World GitHub Issues? — Carlos E. Jimenez et al. (2024)

评估应用

前置阅读： Evaluating Large Language Models Trained on Code

用 12 个真实 Python 仓库 2294 个 issue 评测代码模型"端到端解决 bug"的能力。一夜成为 coding agent 行业标准评测，几乎每篇 coding agent 论文都报 SWE-bench 分数。
OpenAI o1 System Card — OpenAI (2024)

推理能力安全

前置阅读： GPT-4 Technical Report

OpenAI o1 的系统卡，展示了通过大规模强化学习训练"慢思考"模型的路线：模型在回答前进行长时间的内部推理链，在数学竞赛和代码题上大幅超越 GPT-4。这标志着 LLM 从"快思考"到"慢思考"的范式转变，也是 DeepSeek-R1 等模型的直接先驱。
Qwen2.5 Technical Report — Qwen et al. (2024)

预训练

前置阅读： Qwen Technical Report

18T token 预训练，0.5B–72B 全家桶 + 专业 Coder/Math 子家族；是 2024-2025 最稳定的开源中英 LLM 之一。Hugging Face 下载/微调量长期 Top。
FlashAttention-3: Fast and Accurate Attention with Asympotic IO Complexity — Jay Shah et al. (2024)

推理

前置阅读： FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning

利用 H100 的异步 TMA 与 FP8，把 attention 推到 1.2 PFLOPs，并保持数值精度。是 Hopper 架构上长上下文 + FP8 训练的关键依赖。
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters — Charlie Snell et al. (2024)

推理能力推理

系统性给出"推理时多花 compute"的 scaling law：在固定预算下，对小模型加推理时搜索往往比训练更大模型更划算。是 o1/R1 时代理论支撑。
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering — John Yang et al. (2024)

应用

前置阅读： SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

提出 ACI（Agent-Computer Interface）概念，强调"agent 用什么工具/界面 ≥ 用什么模型"。把 GPT-4 + 良好 ACI 在 SWE-bench 提升 6 倍，奠定 coding agent 工程方法论。
GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints — Joshua Ainslie et al. (2023)

推理架构

前置阅读： Fast Transformer Decoding: One Write-Head is All You Need

GQA（分组查询注意力）是 MHA（多头注意力）和 MQA（多查询注意力）的折中方案：将 KV 头的数量分成若干组，每组共享 KV，显著减少了 KV 缓存内存占用，同时保持接近 MHA 的模型质量。LLaMA 2/3、Mistral 等主流模型都采用了 GQA。
A General Theoretical Paradigm to Understand Learning from Human Preferences — Mohammad Gheshlaghi Azar et al. (2023)

对齐

前置阅读： Direct Preference Optimization: Your Language Model is Secretly a Reward Model

用 Ψ-PO 框架统一 RLHF/DPO，并指出 DPO 在 BT 假设下会过拟合；提出 IPO 损失更稳健。是理解"为什么 DPO 不总是 work"的理论必读；另见 KTO、SimPO。
Qwen Technical Report — Jinze Bai et al. (2023)

预训练

前置阅读： LLaMA: Open and Efficient Foundation Language Models

阿里通义千问首份完整技术报告，覆盖 1.8B–72B 全尺寸，并强调中英双语 + tokenizer 友好度。是中文开源 LLM 系列的代表性奠基；后续 Qwen2/2.5 是 2024-2025 开源 SOTA。
LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models — Yukang Chen et al. (2023)

长上下文对齐

前置阅读： LoRA: Low-Rank Adaptation of Large Language Models

用 shifted sparse attention + LoRA 把 7B 模型扩到 100K 上下文，且只用一台 8xA100。是长上下文微调的工程标杆；另见 YaRN、PoSE。
Accelerating Large Language Model Decoding with Speculative Sampling — Charlie Chen et al. (2023)

推理

前置阅读： Fast Inference from Transformers via Speculative Decoding

DeepMind 同期独立提出 speculative sampling，理论上证明可在保持采样分布不变的前提下加速。和 Leviathan 一起为这条路线定调；另见 Medusa、EAGLE 等后续。
FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning — Tri Dao (2023)

推理

前置阅读： FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

用更激进的 warp 级并行和 work partition 把 FlashAttention 再翻倍。今天 vLLM / SGLang / Megatron 训练后端基本都升级到 FA-2。
QLoRA: Efficient Finetuning of Quantized LLMs — Tim Dettmers et al. (2023)

对齐推理

前置阅读： LoRA: Low-Rank Adaptation of Large Language Models , LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

4-bit NF4 + LoRA + paged optimizer，让 65B 在单张 48GB 显卡上 SFT。开源社区微调 LLaMA-2/3、Qwen 几乎 100% 用这套方案。
Gemini: A Family of Highly Capable Multimodal Models — Gemini Team et al. (2023)

预训练多模态

前置阅读： Learning Transferable Visual Models From Natural Language Supervision

Google 的多模态模型族（Ultra/Pro/Nano），"原生多模态"叙事的代表。1.5 系列后续把上下文推到 1M-10M token，是长上下文工业落地的标杆。
Not What You Have Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection — Kai Greshake et al. (2023)

安全

前置阅读： Jailbroken: How Does LLM Safety Training Fail?

揭示了间接提示注入攻击：攻击者通过控制 LLM 应用处理的外部数据（如网页、邮件、文档）来注入恶意指令，从而操控应用行为。展示了 Bing Chat、GitHub Copilot 等真实应用中的攻击场景。
Textbooks Are All You Need — Suriya Gunasekar et al. (2023)

预训练

前置阅读： Training Compute-Optimal Large Language Models

微软用 7B token 高质量"教科书级"合成数据训出 1.3B 在 HumanEval 上接近 GPT-3.5。把"数据质量 >> 数据规模"的故事讲到极致，开启 Phi 系列。
Stop Uploading Test Data in Plain Text: New Protocols for Dataset Release — Alon Jacovi et al. (2023)

评估

前置阅读： Measuring Massive Multitask Language Understanding

提出检测和预防基准数据污染的系统方法。通过分析模型在污染数据上的异常表现模式（如逐字记忆测试集），可以可靠地检测预训练数据是否包含公开测试集。呼吁发布加密或延迟公开的测试集。
Mistral 7B — Albert Q. Jiang et al. (2023)

预训练

前置阅读： LLaMA: Open and Efficient Foundation Language Models

用 GQA + sliding window attention，让 7B 模型干翻 LLaMA-2 13B；并第一次以"Apache 2.0 + 直接放权重"姿态进入舞台。引领欧洲开源 LLM 力量。
Needle in a Haystack — Pressure Testing LLMs — Greg Kamradt (2023)

长上下文评估

前置阅读： YaRN: Efficient Context Window Extension of Large Language Models

提出"大海捞针"（Needle-in-a-Haystack）测试方法：在长文本中随机插入一个关键事实，测试模型能否在回答问题准确定位该事实。成为评估长上下文模型事实检索能力的事实标准方法，揭示了大多数模型在长文本中的"lost in the middle"问题。
Efficient Memory Management for Large Language Model Serving with PagedAttention — Woosuk Kwon et al. (2023)

推理

前置阅读： Fast Transformer Decoding: One Write-Head is All You Need

把操作系统的"分页内存"思想引入 KV cache，几乎消灭 OOM 浪费，让吞吐量翻 2-4 倍。vLLM 由此成为开源推理引擎事实标准；MCP/Agent 时代的算力底座。
Fast Inference from Transformers via Speculative Decoding — Yaniv Leviathan et al. (2023)

推理

前置阅读： Attention Is All You Need

用一个小 draft model 预测多个 token，再让大模型一次校验，几乎无损地获得 2-3x 加速。是当下所有推理引擎（vLLM、TensorRT-LLM）的标配技术之一。
RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback — Harrison Lee et al. (2023)

对齐

前置阅读： Training language models to follow instructions with human feedback

Google 系统性地证明 RLAIF 在多种任务上能匹敌 RLHF，把"AI 反馈替代人工"作为可扩展的对齐方案给出工程证据。
Let's Verify Step by Step — Hunter Lightman et al. (2023)

推理能力评估

前置阅读： Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

提出过程监督（Process Supervision）方法：不仅奖励最终正确答案，还奖励每一步推理的正确性。通过训练一个验证器来评估每个推理步骤，在数学推理任务上显著优于仅奖励最终结果的结果监督（Outcome Supervision）。
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration — Ji Lin et al. (2023)

推理

前置阅读： LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

发现"少数关键权重对应大激活"，按重要性做 per-channel scaling。在 4-bit 上比 GPTQ 更鲁棒、推理更快，是当下 INT4 部署的主流方案之一。
H2O: Heavy-Hitter Oracle for Accurate KV Cache Compression — Zichang Liu et al. (2023)

推理

前置阅读： Fast Transformer Decoding: One Write-Head is All You Need

发现 KV Cache 中存在"重击者"（Heavy Hitters）现象：少数关键 token 贡献了绝大部分注意力权重。H2O 通过保留这些重击者 token 的 KV，可以在仅保留 20-30% KV Cache 的情况下保持几乎无损的性能。
Visual Instruction Tuning — Haotian Liu et al. (2023)

多模态

前置阅读： Flamingo: a Visual Language Model for Few-Shot Learning

CLIP 视觉 encoder + LLaMA + GPT-4 合成的多模态指令数据，用极少算力做出第一个开源 GPT-4V 风格模型。开源多模态生态（LLaVA-1.5/1.6、Qwen-VL、InternVL）的范式起点。
GPT-4V(ision) System Card — OpenAI (2023)

多模态

前置阅读： Learning Transferable Visual Models From Natural Language Supervision

第一份产品级多模态 LLM 的安全/能力披露文档。把"图像 + 文本"统一进 ChatGPT，是 GPT-4o 端到端语音/图像/视频之前的关键一步。
GPT-4 Technical Report — OpenAI (2023)

预训练

前置阅读： Language Models are Few-Shot Learners

工业界报告而非完整论文，但首次明确把"可预测的 scaling"用作产品交付承诺，并系统披露安全/红队流程。是 LLM 从"研究 demo"到"基础设施"的转折点。
YaRN: Efficient Context Window Extension of Large Language Models — Bowen Peng et al. (2023)

长上下文

前置阅读： RoFormer: Enhanced Transformer with Rotary Position Embedding

在 RoPE 上做 NTK-aware 插值 + 温度修正，少量训练即可把上下文扩到 64K-128K。当下大多数开源模型扩长基本走 YaRN 或其变体。
Direct Preference Optimization: Your Language Model is Secretly a Reward Model — Rafael Rafailov et al. (2023)

对齐

前置阅读： Training language models to follow instructions with human feedback

DPO（直接偏好优化）证明了 RLHF 中的奖励模型 + RL 两步可以合并为一步有监督学习：直接在偏好数据上优化语言模型参数，数学上等价于最优 RLHF 策略。 DPO 因其简洁高效成为对齐研究和开源社区的主流替代方案。
Toolformer: Language Models Can Teach Themselves to Use Tools — Timo Schick et al. (2023)

应用

前置阅读： Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

让模型自己生成"调用 API 的 token"并通过自监督评估有用性。是 function-calling / tool-use 训练范式的奠基论文，直接影响 GPT-4 function calling 的设计。
Reflexion: Language Agents with Verbal Reinforcement Learning — Noah Shinn et al. (2023)

应用

前置阅读： ReAct: Synergizing Reasoning and Acting in Language Models

让 agent 在失败后用自然语言做"复盘"，下一轮把反思塞进 prompt。"无梯度的自我改进"思路被广泛复用于 coding agent、SWE-agent。
Alpaca: A Strong, Replicable Instruction-Following Model — Rohan Taori et al. (2023)

对齐

前置阅读： Training language models to follow instructions with human feedback

用 52K 条 self-instruct 数据 + LLaMA 7B，5 美元复刻 GPT-3.5 风格回答。开启开源指令微调浪潮，是 2023 年那场"羊驼大战"的起点。
LLaMA: Open and Efficient Foundation Language Models — Hugo Touvron et al. (2023)

预训练

前置阅读： Language Models are Unsupervised Multitask Learners

Meta 把"小而精 + 大规模 token"的 Chinchilla 配方实操出来，并开放权重。LLaMA 1 直接催生了开源 LLM 大爆炸（Alpaca / Vicuna / Mistral / Qwen 全部受益）。
Llama 2: Open Foundation and Fine-Tuned Chat Models — Meta AI (2023)

预训练对齐

前置阅读： LLaMA: Open and Efficient Foundation Language Models

第一个商用许可的高质量开源 chat 模型，并公开了 RLHF 配方（PPO + GAtt）。直接把开源生态推进到"接近 ChatGPT 体验"的阶段。
Large Language Models are not Fair Evaluators — Peiyi Wang et al. (2023)

评估

前置阅读： Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

系统评估了 LLM-as-a-Judge 方法的偏见问题：位置偏见（偏好第一个回答）、长度偏见（偏好更长的回答）和自增强偏见（偏好自己生成的内容）。提出了缓解这些偏见的方法，如交换位置评分和引入参考答案。
Jailbroken: How Does LLM Safety Training Fail? — Alexander Wei et al. (2023)

安全

前置阅读： Red Teaming Language Models with Language Models

系统化分类越狱手段（在分布外、目标冲突），并解释为什么 RLHF 难以根治。是越狱研究"taxonomy"参考资料。
Efficient Guided Generation for Large Language Models — Brandon T. Willard et al. (2023)

推理应用

前置阅读： Attention Is All You Need

提出高效的约束解码方法，让大语言模型在生成过程中实时遵守 JSON Schema、正则表达式或上下文无关文法。通过将语法约束转化为有限状态自动机，在几乎不增加延迟的情况下保证输出格式正确。
Efficient Streaming Language Models with Attention Sinks — Guangxuan Xiao et al. (2023)

推理长上下文

前置阅读： RoFormer: Enhanced Transformer with Rotary Position Embedding

提出 Attention Sink 现象：在自回归生成中，模型始终关注开头的几个初始 token。利用这一发现，StreamingLLM 可以在不重新计算的情况下处理无限长输入流，同时保持性能稳定。
Tree of Thoughts: Deliberate Problem Solving with Large Language Models — Shunyu Yao et al. (2023)

推理能力应用

前置阅读： ReAct: Synergizing Reasoning and Acting in Language Models

Tree of Thoughts（ToT）将问题求解建模为树搜索：LLM 生成多个"思维步骤"作为树节点，用评估函数打分并进行 BFS/DFS 搜索。在需要复杂规划的任务（如 24 点游戏）上， ToT 比普通 CoT 提升巨大，是 o1 风格慢思考的先驱工作。
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena — Lianmin Zheng et al. (2023)

评估

前置阅读： Holistic Evaluation of Language Models

提出 GPT-4-as-judge + 人类偏好众包 (Chatbot Arena) 评测对话能力。MT-Bench 和 Arena ELO 至今是社区比较模型"对话能力"的事实双标准。
Universal and Transferable Adversarial Attacks on Aligned Language Models — Andy Zou et al. (2023)

安全

前置阅读： Jailbroken: How Does LLM Safety Training Fail?

用 GCG 算法找到一段乱码后缀，能把对齐过的 LLaMA-2/Vicuna 全打穿，且攻击在多个闭源模型间迁移。震撼整个安全社区，让"对齐脆弱性"成为主流话题。
Flamingo: a Visual Language Model for Few-Shot Learning — Jean-Baptiste Alayrac et al. (2022)

多模态

前置阅读： Learning Transferable Visual Models From Natural Language Supervision

用 Perceiver Resampler 把图像特征接到冻结的 LLM 上做 few-shot 视觉问答。是"插件式多模态"主流路线（LLaVA、IDEFICS 等）的鼻祖。
Constitutional AI: Harmlessness from AI Feedback — Yuntao Bai et al. (2022)

对齐安全

前置阅读： Training language models to follow instructions with human feedback

Anthropic 的 Constitutional AI（CAI）方法：用一组明文"宪法"原则，让模型先进行自我批评和修订（SL-CAI 阶段），再用 AI 反馈代替人类反馈做 RLHF（RLAIF 阶段）。这减少了对人工标注的依赖，是 Claude 系列模型对齐的核心技术。
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback — Yuntao Bai et al. (2022)

对齐安全

前置阅读： Deep Reinforcement Learning from Human Preferences

Anthropic 早期 RLHF 论文，HH-RLHF 数据集自此成为开源对齐研究的"MNIST"。是理解 helpful vs harmless 张力的最早系统化工作。
Improving language models by retrieving from trillions of tokens — Sebastian Borgeaud et al. (2022)

应用

前置阅读： Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

DeepMind 在预训练阶段就引入 chunked retrieval，让 7B 模型匹敌 175B GPT-3。证明检索不只是 RAG 推理时招式，也是预训练范式的另一种可能。
PaLM: Scaling Language Modeling with Pathways — Aakanksha Chowdhery et al. (2022)

预训练

前置阅读： Language Models are Few-Shot Learners

Google 的 540B 参数 PaLM 模型，展示了 Pathways 系统上的大规模训练。论文详细记录了训练稳定性技术、数据混合策略和涌现能力观察，是大模型预训练工程的重要参考。
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness — Tri Dao et al. (2022)

推理

前置阅读： Attention Is All You Need

FlashAttention 通过 IO-aware 的分块计算，在不牺牲精度的前提下，将注意力计算的内存从 O(N²) 降至 O(N)，速度提升 2-4 倍。它改变了长上下文训练的可行性边界，是现代高效 LLM 训练和推理不可或缺的底层优化。
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale — Tim Dettmers et al. (2022)

推理

揭示大模型激活中的"emergent outliers"，并提出混合精度方案。bitsandbytes 库背后的核心工作，让 175B 模型第一次能塞进 8 卡 A100。
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers — Elias Frantar et al. (2022)

推理

前置阅读： LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

第一次实现"在单卡上 4-bit 量化 175B 模型而几乎不掉精度"。把 LLM 推理硬件门槛从 8xA100 拉到一张消费级显卡，普及"开源大模型本地跑"。
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned — Deep Ganguli et al. (2022)

安全评估

前置阅读： Red Teaming Language Models with Language Models

系统研究了语言模型的红队测试方法，发现随着模型规模增大，有害输出率反而可能下降，但模型也变得更擅长绕过人类编写的安全规则。提出了规模化红队测试的最佳实践。
Precise Zero-Shot Dense Retrieval without Relevance Labels — Luyu Gao et al. (2022)

应用

前置阅读： Dense Passage Retrieval for Open-Domain Question Answering

让 LLM 先"假装"生成一个回答，再用它的 embedding 检索真文档。零监督、强泛化，是 RAG 时代最常被复用的检索增强 trick 之一。
Training Compute-Optimal Large Language Models — Jordan Hoffmann et al. (2022)

预训练

前置阅读： Scaling Laws for Neural Language Models

提出了 Chinchilla 法则：在固定算力预算下，模型参数量和训练数据量应该同比例增长（而非此前主流认为的参数增长更重要）。这重新定义了 LLM 训练的最优策略， Chinchilla 70B 在多个基准上超越了 Gopher 280B。
Large Language Models are Zero-Shot Reasoners — Takeshi Kojima et al. (2022)

推理能力

前置阅读： Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

一句 "Let's think step by step" 就能在数学题上把准确率从 ~17% 拉到 ~78%。CoT 能力是模型自带、prompt 触发，这一发现震惊了整个社区。
Deduplicating Training Data Makes Language Models Better — Katherine Lee et al. (2022)

预训练

前置阅读： Scaling Laws for Neural Language Models

系统证明训练数据去重能显著提升语言模型性能并减少记忆效应。通过在 C4 和 RealNews 数据集上去除近似重复和精确重复，模型在下游任务上表现更好，且生成训练数据副本的概率大幅降低。
Holistic Evaluation of Language Models — Percy Liang et al. (2022)

评估

前置阅读： Measuring Massive Multitask Language Understanding

Stanford CRFM 系统化评测 30+ LLM × 多维度指标（准确性、鲁棒性、公平性、效率…），把"评测科学"立起来。是反"只看平均分"的代表性工作。
Training language models to follow instructions with human feedback — Long Ouyang et al. (2022)

对齐

前置阅读： Deep Reinforcement Learning from Human Preferences , Learning to summarize from human feedback

InstructGPT 论文，提出了 RLHF 三阶段训练方法（SFT → 奖励模型 → PPO 强化学习），让语言模型从"预测下一个词"转变为"按人类意图回答问题"。这是 ChatGPT 的直接前身，开创了对齐技术的主流路线。
Red Teaming Language Models with Language Models — Ethan Perez et al. (2022)

安全评估

前置阅读： Language Models are Few-Shot Learners

DeepMind 用一个 LLM 自动产生攻击 prompt 来红队另一个 LLM，把红队工程化。安全/越狱研究从此从"人工搜 prompt"走向自动化范式。
Self-Consistency Improves Chain of Thought Reasoning in Language Models — Xuezhi Wang et al. (2022)

推理能力

前置阅读： Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

自洽性（Self-Consistency）是对 CoT 的重要改进：不再贪心解码单条推理链，而是采样多条不同的推理路径，然后取答案出现最多的那个（多数投票）。这简单的技巧在多个推理基准上将准确率提升了 10-20 个百分点。
Self-Instruct: Aligning Language Models with Self-Generated Instructions — Yizhong Wang et al. (2022)

对齐

前置阅读： Alpaca: A Strong, Replicable Instruction-Following Model

用 GPT-3 自己生成指令-输出数据再蒸馏到自己。Stanford Alpaca / Vicuna 都基于这套，开启"用大模型造数据训小模型"的合成数据时代。
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models — Jason Wei et al. (2022)

推理能力应用

前置阅读： Language Models are Few-Shot Learners

提出 Chain-of-Thought（思维链）提示技术：通过在提示中加入中间推理步骤，可以大幅提升大语言模型在数学、逻辑、常识推理等任务上的表现。这个简单技巧把 LLM 的推理能力推向了接近人类的水平。
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models — Guangxuan Xiao et al. (2022)

推理

前置阅读： LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

把激活的 outlier 通过等价数学变换"挪"到权重上，使得 INT8 推理可行。是 GPU FP8/INT8 部署能 work 的关键工程发现。
ReAct: Synergizing Reasoning and Acting in Language Models — Shunyu Yao et al. (2022)

应用

前置阅读： Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

ReAct 框架将推理（Reasoning）和行动（Acting）交织在一起：LLM 先思考（Thought），再执行工具调用（Action），观察结果（Observation），如此循环。这是现代 AI Agent 框架的原型，直接影响了 LangChain、AutoGPT 等 agent 框架的设计。
GLM-130B: An Open Bilingual Pre-trained Model — Aohan Zeng et al. (2022)

架构

前置阅读： Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

清华+智谱开放的中英双语 130B 模型，是中国大模型工业化最早的代表性技术报告。后续 ChatGLM-6B/9B 把开源中文对话推到普及量级。
Least-to-Most Prompting Enables Complex Reasoning in Large Language Models — Denny Zhou et al. (2022)

推理能力

前置阅读： Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

"先把难题拆成易题，再依次解决"是另一条与 CoT 平行的推理范式，对组合泛化任务尤其有效。和 CoT/ToT 一起构成"如何引导大模型分步思考"的三件套。
Extracting Training Data from Large Language Models — Nicholas Carlini et al. (2021)

安全

前置阅读： Jailbroken: How Does LLM Safety Training Fail?

展示了从 GPT-2 等语言模型中提取训练数据片段的可行性。通过精心设计的解码策略，可以从模型中恢复出数百条逐字记忆的训练样本，揭示了大规模语言模型的隐私风险。
Evaluating Large Language Models Trained on Code — Mark Chen et al. (2021)

评估应用

提出 Codex 模型 + HumanEval 基准（164 道编程题）。HumanEval 至今是 coding 模型的"心电图指标"；这篇论文也是 GitHub Copilot 的根。
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts — Nan Du et al. (2021)

混合专家预训练

前置阅读： Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

1.2T 参数 MoE 在 1/3 训练算力下达到 GPT-3 同等质量，是 MoE 路线"性价比胜出"的早期代表。Mixtral / DeepSeek-V2/V3 都是它的精神后裔。
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity — William Fedus et al. (2021)

混合专家预训练

前置阅读： BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Switch Transformer 是第一个在实践中将 Transformer 扩展到万亿参数的架构。通过混合专家（MoE）机制，每个 token 只激活一小部分参数（"稀疏激活"），在相同算力下达到了比密集模型更好的效果。今天 GPT-4、Mixtral 等大模型都可能使用了类似架构。
LoRA: Low-Rank Adaptation of Large Language Models — Edward J. Hu et al. (2021)

对齐

前置阅读： BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

LoRA 通过冻结预训练模型权重，只训练两个低秩矩阵的乘积（秩 r 远小于原始维度），把微调的可训练参数量降低了 10000 倍。这使得在消费级 GPU 上微调大模型成为可能，几乎成为当今最主流的参数高效微调（PEFT）方法。
Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation — Ofir Press et al. (2021)

架构长上下文

前置阅读： Attention Is All You Need

把位置信息变成 attention 上的线性偏置，零参数即可外推到训练长度数倍以上。是早期长上下文方案的代表，与 RoPE 形成两条路线之争。
Learning Transferable Visual Models From Natural Language Supervision — Alec Radford et al. (2021)

多模态

前置阅读： Learning Transferable Visual Models From Natural Language Supervision

CLIP 的原始论文，提出使用自然语言监督来学习可迁移的视觉表示。通过在 4 亿对图像-文本数据上训练对比学习模型，CLIP 实现了零样本图像分类，并展示了强大的跨任务迁移能力，开创了视觉-语言对齐的新范式。
Learning Transferable Visual Models From Natural Language Supervision — Alec Radford et al. (2021)

多模态

前置阅读： Language Models are Unsupervised Multitask Learners

用 4 亿对图文做对比学习，得到通用视觉 encoder。CLIP embedding 至今是几乎所有多模态系统（DALL·E、Stable Diffusion、LLaVA）的视觉前端。
RoFormer: Enhanced Transformer with Rotary Position Embedding — Jianlin Su et al. (2021)

架构长上下文

前置阅读： Attention Is All You Need

RoPE（旋转位置编码）是目前主流 LLM（LLaMA、Mistral、Qwen 等）采用的位置编码方案。通过将位置信息以旋转矩阵的形式融入注意力计算，它能优雅地处理相对位置关系，且在上下文长度外推时表现比绝对位置编码好得多。
Language Models are Few-Shot Learners — Tom Brown et al. (2020)

预训练推理能力

前置阅读： Language Models are Unsupervised Multitask Learners

OpenAI 的 GPT-3 论文，展示了 1750 亿参数的语言模型通过 few-shot in-context learning 能在无需微调的情况下完成各种任务。这篇论文确立了"规模即能力"的范式，并开创了提示工程这个方向。
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators — Kevin Clark et al. (2020)

预训练

前置阅读： BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

用 replaced token detection 替代 MLM，让小模型也能拿到 BERT-large 级表现。是"预训练目标决定样本效率"这条线索的代表作。
Do not Stop Pretraining: Adapt Language Models to Domains and Tasks — Suchin Gururangan et al. (2020)

预训练

前置阅读： Universal Language Model Fine-tuning for Text Classification

证明了在目标领域数据上继续预训练（Domain-Adaptive Pretraining, DAPT）能显著提升任务表现。在生物医学、计算机科学、新闻和评论四个领域上，DAPT 相比直接使用通用预训练模型平均提升 4-8 个百分点。
Measuring Massive Multitask Language Understanding — Dan Hendrycks et al. (2020)

评估

前置阅读： Language Models are Few-Shot Learners

57 学科 1.4 万道考题，从此"刷 MMLU"成为衡量 LLM 通用能力的事实标准。即使在 2025 年仍是模型卡里第一行的指标；另见后续 MMLU-Pro。
Scaling Laws for Neural Language Models — Jared Kaplan et al. (2020)

预训练

前置阅读： Language Models are Few-Shot Learners

OpenAI 的规模定律论文，发现语言模型的性能（cross-entropy loss）与模型参数量、数据集大小和计算量之间存在幂律关系。这使得在小规模实验中就可以预测大规模训练的结果，是 LLM 军备竞赛的理论依据，也直接导致了 GPT-3 的诞生。
Dense Passage Retrieval for Open-Domain Question Answering — Vladimir Karpukhin et al. (2020)

应用

前置阅读： Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

双塔 BERT + in-batch negatives 训出第一个工业级稠密检索器，几乎一夜淘汰 BM25。今天向量检索（FAISS、pgvector）的工程范式从这里定型。
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks — Patrick Lewis et al. (2020)

应用

前置阅读： BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

RAG（检索增强生成）将预训练语言模型与信息检索系统结合：对于每个查询，先从知识库检索相关文档，再将文档拼接进上下文后生成答案。这解决了语言模型知识过期和幻觉问题的一大途径，是今天企业 AI 应用的核心架构之一。
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer — Colin Raffel et al. (2020)

架构

前置阅读： Attention Is All You Need

T5 将所有 NLP 任务统一为"文本到文本"格式（例如分类任务也输出标签文字而非类别 ID），系统性地探索了数据集、架构、预训练目标、规模等因素对迁移学习的影响。这种统一范式后来成为指令微调和指令跟随模型的重要思想来源。
The Right Tool for the Job: Matching Model and Instance Complexities — Roy Schwartz et al. (2020)

推理

前置阅读： Attention Is All You Need

提出自适应计算思想：不同输入实例需要的计算量不同。通过训练一个轻量级路由器将简单样本分配给较小模型、复杂样本分配给较大模型，可以在几乎不损失精度的情况下将平均推理成本降低 2-3 倍。
Learning to summarize from human feedback — Nisan Stiennon et al. (2020)

对齐

前置阅读： Deep Reinforcement Learning from Human Preferences

OpenAI 把 RLHF 第一次用到大型语言模型（摘要），证明 RLHF 比 SFT/MLE 在人类偏好上系统性更好。是 InstructGPT 的直接前身。
RoBERTa: A Robustly Optimized BERT Pretraining Approach — Yinhan Liu et al. (2019)

预训练

前置阅读： BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

用更多数据、更长训练、去掉 NSP，证明 BERT 远未训练充分。重要意义不只是更强的模型，而是首次清晰展示"训练配方"本身就是核心研究问题。
Language Models are Unsupervised Multitask Learners — Alec Radford et al. (2019)

预训练

前置阅读： Improving Language Understanding by Generative Pre-Training (GPT-1)

GPT-2 展示了一个仅在未标注网络文本上训练的 15 亿参数语言模型，能在无任何微调的情况下以零样本方式完成多种语言任务。这挑战了"NLP 任务必须任务专属训练"的传统观念，也因担心被滥用而成为第一个"延迟发布"的 AI 模型。
Fast Transformer Decoding: One Write-Head is All You Need — Noam Shazeer (2019)

推理架构

前置阅读： Attention Is All You Need

提出 Multi-Query Attention：所有 head 共享同一份 K/V，把 KV cache 占用打到 1/h。今天 KV cache 优化、长上下文推理的故事都从这篇 5 页短文开始。
XLNet: Generalized Autoregressive Pretraining for Language Understanding — Zhilin Yang et al. (2019)

架构

前置阅读： BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

提出 Permutation LM 把 AR 和 AE 的好处合并，配合 Transformer-XL 长序列；展示"预训练目标"本身仍然是开放问题，是 BERT 之后最有想象力的替代品。
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding — Jacob Devlin et al. (2018)

架构

前置阅读： Attention Is All You Need

BERT 用掩码语言模型（MLM）和下一句预测（NSP）在大规模文本上预训练双向 Transformer，然后通过微调适配下游任务。BERT 一举刷新了 11 项 NLP 基准，确立了"预训练+微调"的现代 NLP 范式，是 GPT 系列和后续模型的主要竞争对手。
Universal Language Model Fine-tuning for Text Classification — Jeremy Howard et al. (2018)

预训练

前置阅读： Efficient Estimation of Word Representations in Vector Space

第一篇明确提出"通用语言模型预训练 → 任务微调"流水线，并给出 discriminative LR、slanted triangular schedule 等关键 trick。和 ELMo 一起是 "BERT 之前最后一公里"。
Deep contextualized word representations — Matthew E. Peters et al. (2018)

架构

前置阅读： GloVe: Global Vectors for Word Representation

ELMo 提出了"语境化词嵌入"的概念：同一个词在不同语境中有不同的向量表示（例如 bank 在金融和河岸两种语境中向量不同）。ELMo 用双向 LSTM 实现语境化，在多个 NLP 任务上刷新了 SOTA，为 BERT 和后续预训练模型奠定了思想基础。
Improving Language Understanding by Generative Pre-Training (GPT-1) — Alec Radford et al. (2018)

架构预训练

前置阅读： Attention Is All You Need

OpenAI 首次提出 decoder-only + 自回归预训练 + 任务微调；为后来 GPT-2/3/4 系列奠定路线。当时不如 BERT 火，几年后被证明是真正的赢家方向。
Deep Reinforcement Learning from Human Preferences — Paul Christiano et al. (2017)

对齐

RLHF（人类反馈强化学习）的奠基论文。作者展示了通过人类对比偏好来训练奖励模型，再用该奖励模型指导强化学习，可以让 agent 学会难以用奖励函数显式描述的复杂行为。这个框架后来被 InstructGPT/ChatGPT 直接采用。
Attention Is All You Need — Ashish Vaswani et al. (2017)

架构

前置阅读： Neural Machine Translation by Jointly Learning to Align and Translate , Effective Approaches to Attention-based Neural Machine Translation

Transformer 架构的奠基之作。作者完全用注意力机制替代了 RNN/CNN，提出多头自注意力与位置编码，在机器翻译任务上大幅超越此前所有模型。今天所有主流 LLM 的底层架构都源于此论文。
Neural Machine Translation in Linear Time — Nal Kalchbrenner et al. (2016)

架构

前置阅读： Sequence to Sequence Learning with Neural Networks

用扩张卷积做 seq2seq，把序列建模从"必须 RNN 顺序计算"中解放出来；和同期 ConvS2S 一起是 Transformer 之前"并行序列建模"的最强尝试。
Neural Machine Translation of Rare Words with Subword Units — Rico Sennrich et al. (2016)

架构

提出将 BPE（字节对编码）应用于神经机器翻译的分词。通过迭代地合并出现频率最高的字符对， BPE 在词汇表大小和对罕见词的处理能力之间取得平衡。这是 GPT 系列等大多数现代 LLM 分词器的直接原型。
Effective Approaches to Attention-based Neural Machine Translation — Minh-Thang Luong et al. (2015)

架构

前置阅读： Neural Machine Translation by Jointly Learning to Align and Translate

系统化地比较 global vs local attention、不同打分函数（dot / general / concat），是后人讲 "attention score 是怎么算的" 时最常引用的工程化版本。
Neural Machine Translation by Jointly Learning to Align and Translate — Dzmitry Bahdanau et al. (2014)

架构

注意力机制的开山之作（在 Transformer 之前）。作者发现 Seq2Seq 的固定长度瓶颈向量限制了翻译质量，提出让解码器在生成每个词时都能"回顾"编码器的所有隐状态，动态分配注意力权重。这个思想直接演化为 Transformer 的自注意力。
Convolutional Neural Networks for Sentence Classification — Yoon Kim (2014)

架构

用 CNN + 预训练词向量做文本分类，证明"预训练 embedding + 简单架构"能打过手工特征工程，是预训练范式渗入 NLP 的早期标志。
GloVe: Global Vectors for Word Representation — Jeffrey Pennington et al. (2014)

架构

GloVe 通过分解词共现矩阵来学习词向量，结合了基于计数的方法（LSA）和基于预测的方法（Word2Vec）的优点。在词类比和词相似度任务上达到了当时最先进的性能，是学术界广泛使用的基线词向量。
Sequence to Sequence Learning with Neural Networks — Ilya Sutskever et al. (2014)

架构

Seq2Seq 架构（编码器-解码器）的奠基之作。通过两个 LSTM 的"压缩-生成"结构，首次让神经网络能够进行变长序列到变长序列的转换，在机器翻译上取得突破性进展，也直接启发了后来 Transformer 的编解码器设计。
Distributed Representations of Words and Phrases and their Compositionality — Tomas Mikolov et al. (2013)

架构

前置阅读： Efficient Estimation of Word Representations in Vector Space

word2vec 的 NeurIPS 版正篇，引入 Negative Sampling、Hierarchical Softmax 与 phrase-level 向量。之后 GloVe / fastText / 大模型 embedding 层的训练目标都受其影响。
Efficient Estimation of Word Representations in Vector Space — Tomas Mikolov et al. (2013)

架构

Word2Vec 提出了词向量（词嵌入）的概念：通过在大规模文本上训练神经网络，让语义相近的词在向量空间中距离相近。"king - man + woman ≈ queen"的类比关系让世人看到了词嵌入的威力，为后来所有语言模型的嵌入层奠定了基础。