为什么 LLM 会涌现能力
直觉版:更多练习带来新组合能力
Section titled “直觉版:更多练习带来新组合能力”LLM 的许多能力来自一个简单目标:在海量文本上预测下一个 token。当模型足够大、数据足够多、训练足够久时,它会学到语法、事实、格式、推理模板和工具使用痕迹。所谓“涌现”,常指某些能力在规模增加后突然变得可观察。
但涌现不等于魔法。很多现象受评测指标、提示方式和阈值影响:连续变好的能力如果用“答对/答错”衡量,看起来也可能像突然出现。正确态度是既承认规模带来的质变,也警惕过度拟人化。
工程版:Scaling law 与 compute-optimal
Section titled “工程版:Scaling law 与 compute-optimal”Scaling law 研究模型大小、数据量、计算量和损失之间的经验规律。早期结果推动了“大模型更好”的路线;Chinchilla 进一步指出,在固定计算预算下,许多模型训练 token 不足,数据量和参数量需要更平衡。
工程上,能力不是单靠参数量决定。数据质量、去重、混合比例、上下文长度、训练稳定性、对齐和推理策略都会改变表现。Chain-of-thought 等提示方法说明,模型已有能力可能需要合适接口才能被释放。
研究版:把涌现当作可检验假设
Section titled “研究版:把涌现当作可检验假设”研究涌现应报告连续指标、校准曲线、任务难度和提示敏感性,并区分预训练中学到的统计模式、上下文学习、工具外部化和后训练对齐带来的行为变化。更好的问题不是“模型是否真的理解”,而是“在哪些分布、约束和干预下稳定表现出哪些可预测能力”。
本文引用论文
- Scaling Laws for Neural Language Models
OpenAI 的规模定律论文,发现语言模型的性能(cross-entropy loss)与模型参数量、数据集大小 和计算量之间存在幂律关系。这使得在小规模实验中就可以预测大规模训练的结果,是 LLM 军备竞赛的 理论依据,也直接导致了 GPT-3 的诞生。
- Language Models are Few-Shot Learners
OpenAI 的 GPT-3 论文,展示了 1750 亿参数的语言模型通过 few-shot in-context learning 能在无需微调的情况下完成各种任务。这篇论文确立了"规模即能力"的范式,并开创了提示工程这个方向。
- Training Compute-Optimal Large Language Models
提出了 Chinchilla 法则:在固定算力预算下,模型参数量和训练数据量应该同比例增长 (而非此前主流认为的参数增长更重要)。这重新定义了 LLM 训练的最优策略, Chinchilla 70B 在多个基准上超越了 Gopher 280B。
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
提出 Chain-of-Thought(思维链)提示技术:通过在提示中加入中间推理步骤, 可以大幅提升大语言模型在数学、逻辑、常识推理等任务上的表现。 这个简单技巧把 LLM 的推理能力推向了接近人类的水平。