跳转到内容

训练 / Training

⚡

训练

从预训练到对齐的完整流程

2 篇文章

12 篇论文

~16 分钟 阅读时长

推荐阅读顺序

预训练与 Scaling Law：模型怎么学

解释预训练目标、数据工程、Scaling Law 与计算最优训练。

直觉工程研究

微调与对齐：让模型听指令、守规矩

解释 SFT、RLHF、DPO 与偏好优化方法。

直觉工程研究

→ 从第一篇开始阅读