微调与对齐:让模型听指令、守规矩
直觉版:先通才,再专才
Section titled “直觉版:先通才,再专才”预训练让模型成为”语言通才”,但它不会自动按人类期望回答问题。微调(fine-tuning)用高质量指令-回答对继续训练,让模型学会”对话格式”。对齐(alignment)则进一步让输出符合人类价值观:有用、诚实、无害。
可以类比为:预训练是读完所有教科书,微调是参加模拟面试练习,对齐则是学习职业道德和行为规范。三者缺一不可。
工程版:从 SFT 到偏好优化
Section titled “工程版:从 SFT 到偏好优化”实际流程通常分阶段:
- SFT(监督微调):用人工撰写或蒸馏的高质量指令数据训练,让模型学会跟随格式和风格。
- RLHF(基于人类反馈的强化学习):先训练奖励模型(RM)学习人类偏好排序,再用 PPO 等算法优化策略模型,使其获得更高奖励分数。
- DPO(直接偏好优化):跳过显式奖励模型,直接用偏好数据优化策略,简化流程且效果往往相当。
工程取舍包括:SFT 数据质量比数量更重要;RLHF 的超参数敏感、训练不稳定;DPO 更简单但可能在长回复或复杂分布上表现不如 RLHF。 Constitutional AI 和 RLAIF 试图用 AI 而非人类生成偏好,降低成本并提高可扩展性。
此外,LoRA、QLoRA 等参数高效微调方法让小资源团队也能在消费级 GPU 上微调大模型,极大降低了应用门槛。
研究版:对齐的本质与局限
Section titled “研究版:对齐的本质与局限”研究上,“对齐”是否真正改变了模型的内部目标,还是只是表面行为的抑制?这是一个开放问题。有证据表明,模型在某些情况下会”绕过”安全训练(jailbreak),说明对齐可能不是深层的。
关键研究方向包括:奖励黑客(reward hacking)的检测与防御;长度偏差、位置偏差等偏好建模的 artifacts;多轮对话中的上下文一致性;以及,如何用更少的人类标注获得更稳健的对齐效果。
🔬 开放研究问题
该领域的关键问题与研究方向:
- RLHF 中的 reward hacking 问题如何从根本上解决?DPO 是否完全规避了这一问题?
- 对齐后的"能力退化"现象如何量化和缓解?如何在对齐与能力之间找到最优平衡?
- 是否存在统一的对齐框架可以同时处理有用性、无害性、诚实性三个维度?
本文引用论文
- Training language models to follow instructions with human feedback
InstructGPT 论文,提出了 RLHF 三阶段训练方法(SFT → 奖励模型 → PPO 强化学习), 让语言模型从"预测下一个词"转变为"按人类意图回答问题"。这是 ChatGPT 的直接前身, 开创了对齐技术的主流路线。
- Deep Reinforcement Learning from Human Preferences
RLHF(人类反馈强化学习)的奠基论文。作者展示了通过人类对比偏好来训练奖励模型, 再用该奖励模型指导强化学习,可以让 agent 学会难以用奖励函数显式描述的复杂行为。 这个框架后来被 InstructGPT/ChatGPT 直接采用。
- Direct Preference Optimization: Your Language Model is Secretly a Reward Model
DPO(直接偏好优化)证明了 RLHF 中的奖励模型 + RL 两步可以合并为一步有监督学习: 直接在偏好数据上优化语言模型参数,数学上等价于最优 RLHF 策略。 DPO 因其简洁高效成为对齐研究和开源社区的主流替代方案。
- Constitutional AI: Harmlessness from AI Feedback
Anthropic 的 Constitutional AI(CAI)方法:用一组明文"宪法"原则,让模型先进行自我批评和 修订(SL-CAI 阶段),再用 AI 反馈代替人类反馈做 RLHF(RLAIF 阶段)。 这减少了对人工标注的依赖,是 Claude 系列模型对齐的核心技术。
- lee2023-rlaif
Google 系统性地证明 RLAIF 在多种任务上能匹敌 RLHF,把"AI 反馈替代人工"作为可扩展的对齐方案给出工程证据。