跳转到内容

论文库

收录 95 篇经过筛选的 LLM 核心论文,每篇附双语 TLDR。

  • DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — DeepSeek-AI (2025)

    DeepSeek-R1 展示了纯粹通过强化学习(无监督微调启动)就能涌现出类 o1 的链式推理能力, 且主要使用 GRPO(组相对策略优化)而非 PPO。完全开源(权重 + 训练细节), 在多项推理基准上与 OpenAI o1 持平,是 2025 年最重要的开源 LLM 成果之一。

  • Model Context Protocol (MCP) — Anthropic (2024)

    模型上下文协议(MCP)是 Anthropic 提出的开放标准,规定了 LLM 应用如何与外部工具、 数据源和服务进行标准化通信。通过统一的"resources/tools/prompts"接口, 任何 MCP-compatible 的工具都可以无缝接入任何 MCP-compatible 的模型, 目标是成为 AI 工具调用的 USB 标准。

  • The Llama 3 Herd of Models — Meta AI (2024)

    Meta 的 LLaMA 3 系列技术报告,覆盖从 8B 到 405B 参数的多个模型。详细介绍了数据处理 (15T tokens,多语言)、架构改进(GQA、RoPE 扩展)、训练流程(SFT + RLHF + DPO) 以及与多模态扩展的整合。LLaMA 3 405B 是性能最强的开源大模型之一。

  • Mixtral of Experts — Albert Q. Jiang et al. (2024)

    Mixtral 8x7B 是第一个广泛开源的 MoE 语言模型:8 个专家网络,每个 token 选择 2 个, 实际激活参数约 13B 而总参数 47B。在推理成本接近 13B 密集模型的情况下, 性能媲美或超过 LLaMA 2 70B,证明了 MoE 在开源模型上的可行性。

  • OpenAI o1 System Card — OpenAI (2024)

    OpenAI o1 的系统卡,展示了通过大规模强化学习训练"慢思考"模型的路线: 模型在回答前进行长时间的内部推理链,在数学竞赛和代码题上大幅超越 GPT-4。 这标志着 LLM 从"快思考"到"慢思考"的范式转变,也是 DeepSeek-R1 等模型的直接先驱。

  • GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints — Joshua Ainslie et al. (2023)

    GQA(分组查询注意力)是 MHA(多头注意力)和 MQA(多查询注意力)的折中方案: 将 KV 头的数量分成若干组,每组共享 KV,显著减少了 KV 缓存内存占用, 同时保持接近 MHA 的模型质量。LLaMA 2/3、Mistral 等主流模型都采用了 GQA。

  • GPT-4 Technical Report — OpenAI (2023)

    工业界报告而非完整论文,但首次明确把"可预测的 scaling"用作产品交付承诺,并系统披露安全/红队流程。是 LLM 从"研究 demo"到"基础设施"的转折点。

  • GPT-4V(ision) System Card — OpenAI (2023)

    第一份产品级多模态 LLM 的安全/能力披露文档。把"图像 + 文本"统一进 ChatGPT,是 GPT-4o 端到端语音/图像/视频之前的关键一步。

  • Direct Preference Optimization: Your Language Model is Secretly a Reward Model — Rafael Rafailov et al. (2023)

    DPO(直接偏好优化)证明了 RLHF 中的奖励模型 + RL 两步可以合并为一步有监督学习: 直接在偏好数据上优化语言模型参数,数学上等价于最优 RLHF 策略。 DPO 因其简洁高效成为对齐研究和开源社区的主流替代方案。

  • Alpaca: A Strong, Replicable Instruction-Following Model — Rohan Taori et al. (2023)

    用 52K 条 self-instruct 数据 + LLaMA 7B,5 美元复刻 GPT-3.5 风格回答。开启开源指令微调浪潮,是 2023 年那场"羊驼大战"的起点。

  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models — Shunyu Yao et al. (2023)

    Tree of Thoughts(ToT)将问题求解建模为树搜索:LLM 生成多个"思维步骤"作为树节点, 用评估函数打分并进行 BFS/DFS 搜索。在需要复杂规划的任务(如 24 点游戏)上, ToT 比普通 CoT 提升巨大,是 o1 风格慢思考的先驱工作。

  • Constitutional AI: Harmlessness from AI Feedback — Yuntao Bai et al. (2022)

    Anthropic 的 Constitutional AI(CAI)方法:用一组明文"宪法"原则,让模型先进行自我批评和 修订(SL-CAI 阶段),再用 AI 反馈代替人类反馈做 RLHF(RLAIF 阶段)。 这减少了对人工标注的依赖,是 Claude 系列模型对齐的核心技术。

  • FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness — Tri Dao et al. (2022)

    FlashAttention 通过 IO-aware 的分块计算,在不牺牲精度的前提下,将注意力计算的内存 从 O(N²) 降至 O(N),速度提升 2-4 倍。它改变了长上下文训练的可行性边界, 是现代高效 LLM 训练和推理不可或缺的底层优化。

  • Training Compute-Optimal Large Language Models — Jordan Hoffmann et al. (2022)

    提出了 Chinchilla 法则:在固定算力预算下,模型参数量和训练数据量应该同比例增长 (而非此前主流认为的参数增长更重要)。这重新定义了 LLM 训练的最优策略, Chinchilla 70B 在多个基准上超越了 Gopher 280B。

  • Training language models to follow instructions with human feedback — Long Ouyang et al. (2022)

    InstructGPT 论文,提出了 RLHF 三阶段训练方法(SFT → 奖励模型 → PPO 强化学习), 让语言模型从"预测下一个词"转变为"按人类意图回答问题"。这是 ChatGPT 的直接前身, 开创了对齐技术的主流路线。

  • Self-Consistency Improves Chain of Thought Reasoning in Language Models — Xuezhi Wang et al. (2022)

    自洽性(Self-Consistency)是对 CoT 的重要改进:不再贪心解码单条推理链, 而是采样多条不同的推理路径,然后取答案出现最多的那个(多数投票)。 这简单的技巧在多个推理基准上将准确率提升了 10-20 个百分点。

  • Chain-of-Thought Prompting Elicits Reasoning in Large Language Models — Jason Wei et al. (2022)

    提出 Chain-of-Thought(思维链)提示技术:通过在提示中加入中间推理步骤, 可以大幅提升大语言模型在数学、逻辑、常识推理等任务上的表现。 这个简单技巧把 LLM 的推理能力推向了接近人类的水平。

  • ReAct: Synergizing Reasoning and Acting in Language Models — Shunyu Yao et al. (2022)

    ReAct 框架将推理(Reasoning)和行动(Acting)交织在一起:LLM 先思考(Thought), 再执行工具调用(Action),观察结果(Observation),如此循环。这是现代 AI Agent 框架的原型,直接影响了 LangChain、AutoGPT 等 agent 框架的设计。

  • Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity — William Fedus et al. (2021)

    Switch Transformer 是第一个在实践中将 Transformer 扩展到万亿参数的架构。通过混合专家 (MoE)机制,每个 token 只激活一小部分参数("稀疏激活"),在相同算力下达到了比密集模型 更好的效果。今天 GPT-4、Mixtral 等大模型都可能使用了类似架构。

  • LoRA: Low-Rank Adaptation of Large Language Models — Edward J. Hu et al. (2021)

    LoRA 通过冻结预训练模型权重,只训练两个低秩矩阵的乘积(秩 r 远小于原始维度), 把微调的可训练参数量降低了 10000 倍。这使得在消费级 GPU 上微调大模型成为可能, 几乎成为当今最主流的参数高效微调(PEFT)方法。

  • RoFormer: Enhanced Transformer with Rotary Position Embedding — Jianlin Su et al. (2021)

    RoPE(旋转位置编码)是目前主流 LLM(LLaMA、Mistral、Qwen 等)采用的位置编码方案。 通过将位置信息以旋转矩阵的形式融入注意力计算,它能优雅地处理相对位置关系, 且在上下文长度外推时表现比绝对位置编码好得多。

  • Language Models are Few-Shot Learners — Tom Brown et al. (2020)

    OpenAI 的 GPT-3 论文,展示了 1750 亿参数的语言模型通过 few-shot in-context learning 能在无需微调的情况下完成各种任务。这篇论文确立了"规模即能力"的范式,并开创了提示工程这个方向。

  • Scaling Laws for Neural Language Models — Jared Kaplan et al. (2020)

    OpenAI 的规模定律论文,发现语言模型的性能(cross-entropy loss)与模型参数量、数据集大小 和计算量之间存在幂律关系。这使得在小规模实验中就可以预测大规模训练的结果,是 LLM 军备竞赛的 理论依据,也直接导致了 GPT-3 的诞生。

  • Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks — Patrick Lewis et al. (2020)

    RAG(检索增强生成)将预训练语言模型与信息检索系统结合:对于每个查询,先从知识库 检索相关文档,再将文档拼接进上下文后生成答案。这解决了语言模型知识过期和 幻觉问题的一大途径,是今天企业 AI 应用的核心架构之一。

  • Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer — Colin Raffel et al. (2020)

    T5 将所有 NLP 任务统一为"文本到文本"格式(例如分类任务也输出标签文字而非类别 ID), 系统性地探索了数据集、架构、预训练目标、规模等因素对迁移学习的影响。这种统一范式 后来成为指令微调和指令跟随模型的重要思想来源。

  • Language Models are Unsupervised Multitask Learners — Alec Radford et al. (2019)

    GPT-2 展示了一个仅在未标注网络文本上训练的 15 亿参数语言模型,能在无任何微调的情况下 以零样本方式完成多种语言任务。这挑战了"NLP 任务必须任务专属训练"的传统观念, 也因担心被滥用而成为第一个"延迟发布"的 AI 模型。

  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding — Jacob Devlin et al. (2018)

    BERT 用掩码语言模型(MLM)和下一句预测(NSP)在大规模文本上预训练双向 Transformer, 然后通过微调适配下游任务。BERT 一举刷新了 11 项 NLP 基准,确立了"预训练+微调"的现代 NLP 范式,是 GPT 系列和后续模型的主要竞争对手。

  • Deep contextualized word representations — Matthew E. Peters et al. (2018)

    ELMo 提出了"语境化词嵌入"的概念:同一个词在不同语境中有不同的向量表示(例如 bank 在金融 和河岸两种语境中向量不同)。ELMo 用双向 LSTM 实现语境化,在多个 NLP 任务上刷新了 SOTA, 为 BERT 和后续预训练模型奠定了思想基础。

  • Improving Language Understanding by Generative Pre-Training (GPT-1) — Alec Radford et al. (2018)

    OpenAI 首次提出 decoder-only + 自回归预训练 + 任务微调;为后来 GPT-2/3/4 系列奠定路线。当时不如 BERT 火,几年后被证明是真正的赢家方向。

  • Deep Reinforcement Learning from Human Preferences — Paul Christiano et al. (2017)

    RLHF(人类反馈强化学习)的奠基论文。作者展示了通过人类对比偏好来训练奖励模型, 再用该奖励模型指导强化学习,可以让 agent 学会难以用奖励函数显式描述的复杂行为。 这个框架后来被 InstructGPT/ChatGPT 直接采用。

  • Attention Is All You Need — Ashish Vaswani et al. (2017)

    Transformer 架构的奠基之作。作者完全用注意力机制替代了 RNN/CNN,提出多头自注意力与位置编码, 在机器翻译任务上大幅超越此前所有模型。今天所有主流 LLM 的底层架构都源于此论文。

  • Neural Machine Translation by Jointly Learning to Align and Translate — Dzmitry Bahdanau et al. (2014)

    注意力机制的开山之作(在 Transformer 之前)。作者发现 Seq2Seq 的固定长度瓶颈向量限制了翻译 质量,提出让解码器在生成每个词时都能"回顾"编码器的所有隐状态,动态分配注意力权重。 这个思想直接演化为 Transformer 的自注意力。

  • Sequence to Sequence Learning with Neural Networks — Ilya Sutskever et al. (2014)

    Seq2Seq 架构(编码器-解码器)的奠基之作。通过两个 LSTM 的"压缩-生成"结构,首次让神经网络 能够进行变长序列到变长序列的转换,在机器翻译上取得突破性进展,也直接启发了后来 Transformer 的编解码器设计。

  • Efficient Estimation of Word Representations in Vector Space — Tomas Mikolov et al. (2013)

    Word2Vec 提出了词向量(词嵌入)的概念:通过在大规模文本上训练神经网络,让语义相近的词 在向量空间中距离相近。"king - man + woman ≈ queen"的类比关系让世人看到了词嵌入的威力, 为后来所有语言模型的嵌入层奠定了基础。

  • abdin2024-phi3

    3.8B Phi-3-mini 在多个评测上接近 GPT-3.5;继续印证"高质量合成 + 课程数据"的 Phi 配方。是端侧/本地大模型的代表工作。

  • ai2024-yi

    李开复 01.AI 的全栈技术报告,强调"小而强 + 数据质量"。Yi-34B 长期是开源中英 LLM 第一梯队,也是 200K 上下文开源模型早期代表。

  • azar2023-ipo

    用 Ψ-PO 框架统一 RLHF/DPO,并指出 DPO 在 BT 假设下会过拟合;提出 IPO 损失更稳健。是理解"为什么 DPO 不总是 work"的理论必读;另见 KTO、SimPO。

  • alayrac2022-flamingo

    用 Perceiver Resampler 把图像特征接到冻结的 LLM 上做 few-shot 视觉问答。是"插件式多模态"主流路线(LLaVA、IDEFICS 等)的鼻祖。

  • bai2022-hh

    Anthropic 早期 RLHF 论文,HH-RLHF 数据集自此成为开源对齐研究的"MNIST"。是理解 helpful vs harmless 张力的最早系统化工作。

  • bai2023-qwen

    阿里通义千问首份完整技术报告,覆盖 1.8B–72B 全尺寸,并强调中英双语 + tokenizer 友好度。是中文开源 LLM 系列的代表性奠基;后续 Qwen2/2.5 是 2024-2025 开源 SOTA。

  • borgeaud2022-retro

    DeepMind 在预训练阶段就引入 chunked retrieval,让 7B 模型匹敌 175B GPT-3。证明检索不只是 RAG 推理时招式,也是预训练范式的另一种可能。

  • chen2021-humaneval

    提出 Codex 模型 + HumanEval 基准(164 道编程题)。HumanEval 至今是 coding 模型的"心电图指标";这篇论文也是 GitHub Copilot 的根。

  • chen2023-longlora

    用 shifted sparse attention + LoRA 把 7B 模型扩到 100K 上下文,且只用一台 8xA100。是长上下文微调的工程标杆;另见 YaRN、PoSE。

  • chen2023-spec-sampling

    DeepMind 同期独立提出 speculative sampling,理论上证明可在保持采样分布不变的前提下加速。和 Leviathan 一起为这条路线定调;另见 Medusa、EAGLE 等后续。

  • chowdhery2022-palm

    Google 540B 模型,展示更大规模带来的"涌现"行为(多步推理、解释笑话),并首次大规模使用 Pathways 系统。是 GPT-3 之后另一条独立的工程路线。

  • clark2020-electra

    用 replaced token detection 替代 MLM,让小模型也能拿到 BERT-large 级表现。是"预训练目标决定样本效率"这条线索的代表作。

  • dao2023-flashattention2

    用更激进的 warp 级并行和 work partition 把 FlashAttention 再翻倍。今天 vLLM / SGLang / Megatron 训练后端基本都升级到 FA-2。

  • deepseek2024-v2

    引入 Multi-head Latent Attention (MLA) 把 KV cache 砍到 1/13,让 236B MoE 推理价格碾压同档闭源。MLA 是 V3/R1 推理性价比的核心来源。

  • deepseek2024-v3

    671B 参数(37B 激活)MoE,14.8T token 训练;首次大规模在生产 LLM 上跑通 FP8 训练 + Multi-Token Prediction,并把训练成本压到 $5.6M。震动整个行业。

  • dettmers2022-llmint8

    揭示大模型激活中的"emergent outliers",并提出混合精度方案。bitsandbytes 库背后的核心工作,让 175B 模型第一次能塞进 8 卡 A100。

  • dettmers2023-qlora

    4-bit NF4 + LoRA + paged optimizer,让 65B 在单张 48GB 显卡上 SFT。开源社区微调 LLaMA-2/3、Qwen 几乎 100% 用这套方案。

  • du2021-glam

    1.2T 参数 MoE 在 1/3 训练算力下达到 GPT-3 同等质量,是 MoE 路线"性价比胜出"的早期代表。Mixtral / DeepSeek-V2/V3 都是它的精神后裔。

  • frantar2022-gptq

    第一次实现"在单卡上 4-bit 量化 175B 模型而几乎不掉精度"。把 LLM 推理硬件门槛从 8xA100 拉到一张消费级显卡,普及"开源大模型本地跑"。

  • gao2022-hyde

    让 LLM 先"假装"生成一个回答,再用它的 embedding 检索真文档。零监督、强泛化,是 RAG 时代最常被复用的检索增强 trick 之一。

  • gemini2023-team

    Google 的多模态模型族(Ultra/Pro/Nano),"原生多模态"叙事的代表。1.5 系列后续把上下文推到 1M-10M token,是长上下文工业落地的标杆。

  • gunasekar2023-phi1

    微软用 7B token 高质量"教科书级"合成数据训出 1.3B 在 HumanEval 上接近 GPT-3.5。把"数据质量 >> 数据规模"的故事讲到极致,开启 Phi 系列。

  • hendrycks2020-mmlu

    57 学科 1.4 万道考题,从此"刷 MMLU"成为衡量 LLM 通用能力的事实标准。即使在 2025 年仍是模型卡里第一行的指标;另见后续 MMLU-Pro。

  • howard2018-ulmfit

    第一篇明确提出"通用语言模型预训练 → 任务微调"流水线,并给出 discriminative LR、slanted triangular schedule 等关键 trick。和 ELMo 一起是 "BERT 之前最后一公里"。

  • jiang2023-mistral7b

    用 GQA + sliding window attention,让 7B 模型干翻 LLaMA-2 13B;并第一次以"Apache 2.0 + 直接放权重"姿态进入舞台。引领欧洲开源 LLM 力量。

  • jimenez2024-swebench

    用 12 个真实 Python 仓库 2294 个 issue 评测代码模型"端到端解决 bug"的能力。一夜成为 coding agent 行业标准评测,几乎每篇 coding agent 论文都报 SWE-bench 分数。

  • kalchbrenner2016-bytenet

    用扩张卷积做 seq2seq,把序列建模从"必须 RNN 顺序计算"中解放出来;和同期 ConvS2S 一起是 Transformer 之前"并行序列建模"的最强尝试。

  • karpukhin2020-dpr

    双塔 BERT + in-batch negatives 训出第一个工业级稠密检索器,几乎一夜淘汰 BM25。今天向量检索(FAISS、pgvector)的工程范式从这里定型。

  • kim2014-textcnn

    用 CNN + 预训练词向量做文本分类,证明"预训练 embedding + 简单架构"能打过手工特征工程,是预训练范式渗入 NLP 的早期标志。

  • kojima2022-zeroshot-cot

    一句 "Let's think step by step" 就能在数学题上把准确率从 ~17% 拉到 ~78%。CoT 能力是模型自带、prompt 触发,这一发现震惊了整个社区。

  • kwon2023-vllm

    把操作系统的"分页内存"思想引入 KV cache,几乎消灭 OOM 浪费,让吞吐量翻 2-4 倍。vLLM 由此成为开源推理引擎事实标准;MCP/Agent 时代的算力底座。

  • lee2023-rlaif

    Google 系统性地证明 RLAIF 在多种任务上能匹敌 RLHF,把"AI 反馈替代人工"作为可扩展的对齐方案给出工程证据。

  • leviathan2023-spec-decoding

    用一个小 draft model 预测多个 token,再让大模型一次校验,几乎无损地获得 2-3x 加速。是当下所有推理引擎(vLLM、TensorRT-LLM)的标配技术之一。

  • liang2022-helm

    Stanford CRFM 系统化评测 30+ LLM × 多维度指标(准确性、鲁棒性、公平性、效率…),把"评测科学"立起来。是反"只看平均分"的代表性工作。

  • lin2023-awq

    发现"少数关键权重对应大激活",按重要性做 per-channel scaling。在 4-bit 上比 GPTQ 更鲁棒、推理更快,是当下 INT4 部署的主流方案之一。

  • liu2019-roberta

    用更多数据、更长训练、去掉 NSP,证明 BERT 远未训练充分。重要意义不只是更强的模型,而是首次清晰展示"训练配方"本身就是核心研究问题。

  • liu2023-llava

    CLIP 视觉 encoder + LLaMA + GPT-4 合成的多模态指令数据,用极少算力做出第一个开源 GPT-4V 风格模型。开源多模态生态(LLaVA-1.5/1.6、Qwen-VL、InternVL)的范式起点。

  • luong2015-attention

    系统化地比较 global vs local attention、不同打分函数(dot / general / concat),是后人讲 "attention score 是怎么算的" 时最常引用的工程化版本。

  • mikolov2013-skipgram-negsampling

    word2vec 的 NeurIPS 版正篇,引入 Negative Sampling、Hierarchical Softmax 与 phrase-level 向量。之后 GloVe / fastText / 大模型 embedding 层的训练目标都受其影响。

  • peng2023-yarn

    在 RoPE 上做 NTK-aware 插值 + 温度修正,少量训练即可把上下文扩到 64K-128K。当下大多数开源模型扩长基本走 YaRN 或其变体。

  • perez2022-redteaming

    DeepMind 用一个 LLM 自动产生攻击 prompt 来红队另一个 LLM,把红队工程化。安全/越狱研究从此从"人工搜 prompt"走向自动化范式。

  • press2021-alibi

    把位置信息变成 attention 上的线性偏置,零参数即可外推到训练长度数倍以上。是早期长上下文方案的代表,与 RoPE 形成两条路线之争。

  • qwen2024-qwen25

    18T token 预训练,0.5B–72B 全家桶 + 专业 Coder/Math 子家族;是 2024-2025 最稳定的开源中英 LLM 之一。Hugging Face 下载/微调量长期 Top。

  • radford2021-clip

    用 4 亿对图文做对比学习,得到通用视觉 encoder。CLIP embedding 至今是几乎所有多模态系统(DALL·E、Stable Diffusion、LLaVA)的视觉前端。

  • schick2023-toolformer

    让模型自己生成"调用 API 的 token"并通过自监督评估有用性。是 function-calling / tool-use 训练范式的奠基论文,直接影响 GPT-4 function calling 的设计。

  • shah2024-flashattention3

    利用 H100 的异步 TMA 与 FP8,把 attention 推到 1.2 PFLOPs,并保持数值精度。是 Hopper 架构上长上下文 + FP8 训练的关键依赖。

  • shazeer2019-mqa

    提出 Multi-Query Attention:所有 head 共享同一份 K/V,把 KV cache 占用打到 1/h。今天 KV cache 优化、长上下文推理的故事都从这篇 5 页短文开始。

  • shinn2023-reflexion

    让 agent 在失败后用自然语言做"复盘",下一轮把反思塞进 prompt。"无梯度的自我改进"思路被广泛复用于 coding agent、SWE-agent。

  • snell2024-test-time-compute

    系统性给出"推理时多花 compute"的 scaling law:在固定预算下,对小模型加推理时搜索往往比训练更大模型更划算。是 o1/R1 时代理论支撑。

  • stiennon2020-summarize

    OpenAI 把 RLHF 第一次用到大型语言模型(摘要),证明 RLHF 比 SFT/MLE 在人类偏好上系统性更好。是 InstructGPT 的直接前身。

  • touvron2023-llama

    Meta 把"小而精 + 大规模 token"的 Chinchilla 配方实操出来,并开放权重。LLaMA 1 直接催生了开源 LLM 大爆炸(Alpaca / Vicuna / Mistral / Qwen 全部受益)。

  • touvron2023-llama2

    第一个商用许可的高质量开源 chat 模型,并公开了 RLHF 配方(PPO + GAtt)。直接把开源生态推进到"接近 ChatGPT 体验"的阶段。

  • wang2022-self-instruct

    用 GPT-3 自己生成指令-输出数据再蒸馏到自己。Stanford Alpaca / Vicuna 都基于这套,开启"用大模型造数据训小模型"的合成数据时代。

  • wei2023-jailbroken

    系统化分类越狱手段(在分布外、目标冲突),并解释为什么 RLHF 难以根治。是越狱研究"taxonomy"参考资料。

  • xiao2022-smoothquant

    把激活的 outlier 通过等价数学变换"挪"到权重上,使得 INT8 推理可行。是 GPU FP8/INT8 部署能 work 的关键工程发现。

  • yang2019-xlnet

    提出 Permutation LM 把 AR 和 AE 的好处合并,配合 Transformer-XL 长序列;展示"预训练目标"本身仍然是开放问题,是 BERT 之后最有想象力的替代品。

  • yang2024-sweagent

    提出 ACI(Agent-Computer Interface)概念,强调"agent 用什么工具/界面 ≥ 用什么模型"。把 GPT-4 + 良好 ACI 在 SWE-bench 提升 6 倍,奠定 coding agent 工程方法论。

  • zeng2022-glm130b

    清华+智谱开放的中英双语 130B 模型,是中国大模型工业化最早的代表性技术报告。后续 ChatGLM-6B/9B 把开源中文对话推到普及量级。

  • zhou2022-least-to-most

    "先把难题拆成易题,再依次解决"是另一条与 CoT 平行的推理范式,对组合泛化任务尤其有效。和 CoT/ToT 一起构成"如何引导大模型分步思考"的三件套。

  • zheng2023-mtbench

    提出 GPT-4-as-judge + 人类偏好众包 (Chatbot Arena) 评测对话能力。MT-Bench 和 Arena ELO 至今是社区比较模型"对话能力"的事实双标准。

  • zou2023-universal-attack

    用 GCG 算法找到一段乱码后缀,能把对齐过的 LLaMA-2/Vicuna 全打穿,且攻击在多个闭源模型间迁移。震撼整个安全社区,让"对齐脆弱性"成为主流话题。