跳转到内容

预训练与 Scaling Law:模型怎么学

直觉版:读遍互联网,学会猜下一个词

Section titled “直觉版:读遍互联网,学会猜下一个词”

预训练是 LLM 能力的根基。模型在海量文本(网页、书籍、代码、论文)上做一个简单任务:给定前面的词,预测下一个词。通过反复练习,它逐渐学会语法、常识、推理模式和世界知识。

这个过程就像小孩通过听大人说话学习语言:不是直接教规则,而是在大量输入中自发统计规律。模型越大、数据越多样、训练越久,它掌握的”隐性知识”就越丰富。所谓 Scaling Law,就是发现模型性能随规模、数据量、计算量可预测地提升。

工程版:数据、稳定与计算效率

Section titled “工程版:数据、稳定与计算效率”

工程上,预训练的核心挑战不是”跑起来”,而是”稳定、高效、可复现”。数据工程占极大比重:去重、过滤低质内容、平衡多语言与代码比例、处理隐私和版权敏感数据。好的数据配比能让小模型超过大模型在烂数据上的表现。

训练稳定性方面,深层大模型容易出现 loss spike、梯度爆炸或注意力崩溃。常用手段包括:预热学习率、梯度裁剪、混合精度训练、各种归一化改进、激活检查点和模型并行/流水线并行策略。

Chinchilla 的研究指出,许多模型在固定计算预算下训练 token 不足。计算最优训练的启发是:参数和数据应该同步增长,而不是一味堆参数量。这对预算有限的团队尤为重要。

研究版:从经验规律到机理理解

Section titled “研究版:从经验规律到机理理解”

研究层面,Scaling Law 提供了经验预测工具,但其理论解释仍在发展中。关键问题包括:为什么损失随计算量呈幂律下降?这种规律在不同架构、数据分布和优化器下是否普适?是否存在规模之外的”相变”?

当前研究方向还包括:数据课程(curriculum learning)能否加速收敛?持续预训练(continual pretraining)如何在保留旧知识的同时学习新领域?以及,预训练学到的”知识”与下游任务表现之间的因果链路是什么?

🔬 开放研究问题

该领域的关键问题与研究方向:

  1. Scaling Law 在何种情况下会失效?是否存在"数据墙"或"参数墙"的理论极限?
  2. 如何在资源受限情况下优化 compute budget 分配策略?小模型能否通过更多数据逼近大模型性能?
  3. 多模态、长上下文、稀疏模型的 Scaling Law 是否遵循相同规律?

本文引用论文

  • Scaling Laws for Neural Language Models — Jared Kaplan et al. (2020)

    OpenAI 的规模定律论文,发现语言模型的性能(cross-entropy loss)与模型参数量、数据集大小 和计算量之间存在幂律关系。这使得在小规模实验中就可以预测大规模训练的结果,是 LLM 军备竞赛的 理论依据,也直接导致了 GPT-3 的诞生。

  • Training Compute-Optimal Large Language Models — Jordan Hoffmann et al. (2022)

    提出了 Chinchilla 法则:在固定算力预算下,模型参数量和训练数据量应该同比例增长 (而非此前主流认为的参数增长更重要)。这重新定义了 LLM 训练的最优策略, Chinchilla 70B 在多个基准上超越了 Gopher 280B。

  • Language Models are Few-Shot Learners — Tom Brown et al. (2020)

    OpenAI 的 GPT-3 论文,展示了 1750 亿参数的语言模型通过 few-shot in-context learning 能在无需微调的情况下完成各种任务。这篇论文确立了"规模即能力"的范式,并开创了提示工程这个方向。

  • PaLM: Scaling Language Modeling with Pathways — Aakanksha Chowdhery et al. (2022)

    Google 的 540B 参数 PaLM 模型,展示了 Pathways 系统上的大规模训练。论文详细记录了训练稳定性技术、数据混合策略和涌现能力观察,是大模型预训练工程的重要参考。