跳转到内容

微调与对齐:让模型听指令、守规矩

预训练让模型成为”语言通才”,但它不会自动按人类期望回答问题。微调(fine-tuning)用高质量指令-回答对继续训练,让模型学会”对话格式”。对齐(alignment)则进一步让输出符合人类价值观:有用、诚实、无害。

可以类比为:预训练是读完所有教科书,微调是参加模拟面试练习,对齐则是学习职业道德和行为规范。三者缺一不可。

实际流程通常分阶段:

  1. SFT(监督微调):用人工撰写或蒸馏的高质量指令数据训练,让模型学会跟随格式和风格。
  2. RLHF(基于人类反馈的强化学习):先训练奖励模型(RM)学习人类偏好排序,再用 PPO 等算法优化策略模型,使其获得更高奖励分数。
  3. DPO(直接偏好优化):跳过显式奖励模型,直接用偏好数据优化策略,简化流程且效果往往相当。

工程取舍包括:SFT 数据质量比数量更重要;RLHF 的超参数敏感、训练不稳定;DPO 更简单但可能在长回复或复杂分布上表现不如 RLHF。 Constitutional AI 和 RLAIF 试图用 AI 而非人类生成偏好,降低成本并提高可扩展性。

此外,LoRA、QLoRA 等参数高效微调方法让小资源团队也能在消费级 GPU 上微调大模型,极大降低了应用门槛。

研究上,“对齐”是否真正改变了模型的内部目标,还是只是表面行为的抑制?这是一个开放问题。有证据表明,模型在某些情况下会”绕过”安全训练(jailbreak),说明对齐可能不是深层的。

关键研究方向包括:奖励黑客(reward hacking)的检测与防御;长度偏差、位置偏差等偏好建模的 artifacts;多轮对话中的上下文一致性;以及,如何用更少的人类标注获得更稳健的对齐效果。

🔬 开放研究问题

该领域的关键问题与研究方向:

  1. RLHF 中的 reward hacking 问题如何从根本上解决?DPO 是否完全规避了这一问题?
  2. 对齐后的"能力退化"现象如何量化和缓解?如何在对齐与能力之间找到最优平衡?
  3. 是否存在统一的对齐框架可以同时处理有用性、无害性、诚实性三个维度?

本文引用论文

  • Training language models to follow instructions with human feedback — Long Ouyang et al. (2022)

    InstructGPT 论文,提出了 RLHF 三阶段训练方法(SFT → 奖励模型 → PPO 强化学习), 让语言模型从"预测下一个词"转变为"按人类意图回答问题"。这是 ChatGPT 的直接前身, 开创了对齐技术的主流路线。

  • Deep Reinforcement Learning from Human Preferences — Paul Christiano et al. (2017)

    RLHF(人类反馈强化学习)的奠基论文。作者展示了通过人类对比偏好来训练奖励模型, 再用该奖励模型指导强化学习,可以让 agent 学会难以用奖励函数显式描述的复杂行为。 这个框架后来被 InstructGPT/ChatGPT 直接采用。

  • Direct Preference Optimization: Your Language Model is Secretly a Reward Model — Rafael Rafailov et al. (2023)

    DPO(直接偏好优化)证明了 RLHF 中的奖励模型 + RL 两步可以合并为一步有监督学习: 直接在偏好数据上优化语言模型参数,数学上等价于最优 RLHF 策略。 DPO 因其简洁高效成为对齐研究和开源社区的主流替代方案。

  • Constitutional AI: Harmlessness from AI Feedback — Yuntao Bai et al. (2022)

    Anthropic 的 Constitutional AI(CAI)方法:用一组明文"宪法"原则,让模型先进行自我批评和 修订(SL-CAI 阶段),再用 AI 反馈代替人类反馈做 RLHF(RLAIF 阶段)。 这减少了对人工标注的依赖,是 Claude 系列模型对齐的核心技术。

  • lee2023-rlaif

    Google 系统性地证明 RLAIF 在多种任务上能匹敌 RLHF,把"AI 反馈替代人工"作为可扩展的对齐方案给出工程证据。