预训练与 Scaling Law：模型怎么学

直觉版：读遍互联网，学会猜下一个词

预训练是 LLM 能力的根基。模型在海量文本（网页、书籍、代码、论文）上做一个简单任务：给定前面的词，预测下一个词。通过反复练习，它逐渐学会语法、常识、推理模式和世界知识。

这个过程就像小孩通过听大人说话学习语言：不是直接教规则，而是在大量输入中自发统计规律。模型越大、数据越多样、训练越久，它掌握的”隐性知识”就越丰富。所谓 Scaling Law，就是发现模型性能随规模、数据量、计算量可预测地提升。

工程版：数据、稳定与计算效率

工程上，预训练的核心挑战不是”跑起来”，而是”稳定、高效、可复现”。数据工程占极大比重：去重、过滤低质内容、平衡多语言与代码比例、处理隐私和版权敏感数据。好的数据配比能让小模型超过大模型在烂数据上的表现。

训练稳定性方面，深层大模型容易出现 loss spike、梯度爆炸或注意力崩溃。常用手段包括：预热学习率、梯度裁剪、混合精度训练、各种归一化改进、激活检查点和模型并行/流水线并行策略。

Chinchilla 的研究指出，许多模型在固定计算预算下训练 token 不足。计算最优训练的启发是：参数和数据应该同步增长，而不是一味堆参数量。这对预算有限的团队尤为重要。

研究版：从经验规律到机理理解

研究层面，Scaling Law 提供了经验预测工具，但其理论解释仍在发展中。关键问题包括：为什么损失随计算量呈幂律下降？这种规律在不同架构、数据分布和优化器下是否普适？是否存在规模之外的”相变”？

当前研究方向还包括：数据课程（curriculum learning）能否加速收敛？持续预训练（continual pretraining）如何在保留旧知识的同时学习新领域？以及，预训练学到的”知识”与下游任务表现之间的因果链路是什么？

🔬 开放研究问题

该领域的关键问题与研究方向：

Scaling Law 在何种情况下会失效？是否存在"数据墙"或"参数墙"的理论极限？

相关论文： hoffmann2022 chinchilla
如何在资源受限情况下优化 compute budget 分配策略？小模型能否通过更多数据逼近大模型性能？
多模态、长上下文、稀疏模型的 Scaling Law 是否遵循相同规律？

本文引用论文

Scaling Laws for Neural Language Models — Jared Kaplan et al. (2020)
OpenAI 的规模定律论文，发现语言模型的性能（cross-entropy loss）与模型参数量、数据集大小和计算量之间存在幂律关系。这使得在小规模实验中就可以预测大规模训练的结果，是 LLM 军备竞赛的理论依据，也直接导致了 GPT-3 的诞生。
Training Compute-Optimal Large Language Models — Jordan Hoffmann et al. (2022)
提出了 Chinchilla 法则：在固定算力预算下，模型参数量和训练数据量应该同比例增长（而非此前主流认为的参数增长更重要）。这重新定义了 LLM 训练的最优策略， Chinchilla 70B 在多个基准上超越了 Gopher 280B。
Language Models are Few-Shot Learners — Tom Brown et al. (2020)
OpenAI 的 GPT-3 论文，展示了 1750 亿参数的语言模型通过 few-shot in-context learning 能在无需微调的情况下完成各种任务。这篇论文确立了"规模即能力"的范式，并开创了提示工程这个方向。
PaLM: Scaling Language Modeling with Pathways — Aakanksha Chowdhery et al. (2022)
Google 的 540B 参数 PaLM 模型，展示了 Pathways 系统上的大规模训练。论文详细记录了训练稳定性技术、数据混合策略和涌现能力观察，是大模型预训练工程的重要参考。
RoBERTa: A Robustly Optimized BERT Pretraining Approach — Yinhan Liu et al. (2019)
用更多数据、更长训练、去掉 NSP，证明 BERT 远未训练充分。重要意义不只是更强的模型，而是首次清晰展示"训练配方"本身就是核心研究问题。
Deduplicating Training Data Makes Language Models Better — Katherine Lee et al. (2022)
系统证明训练数据去重能显著提升语言模型性能并减少记忆效应。通过在 C4 和 RealNews 数据集上去除近似重复和精确重复，模型在下游任务上表现更好，且生成训练数据副本的概率大幅降低。

预训练与 Scaling Law：模型怎么学

直觉版：读遍互联网，学会猜下一个词

工程版：数据、稳定与计算效率

研究版：从经验规律到机理理解

🔬 开放研究问题

相关阅读

微调与对齐：让模型听指令、守规矩

为什么 LLM 会涌现能力

KV Cache 与量化：让大模型跑得更快

本文引用论文