Why Alignment Must Precede Distillation: A Minimal Working Explanation

2025年09月28日
  • 简介
    为了提高效率,偏好对齐通常在经过知识蒸馏(KD)得到的紧凑模型上进行。我们认为,这种常见做法存在一个重大局限,即忽视了对齐过程中参考模型的一个关键特性:其分布召回能力(distributional recall)。我们指出,标准的“先蒸馏后对齐”(KD → Align)流程会削弱模型对那些虽罕见但理想行为的对齐能力,即使存在强烈的偏好信号也难以弥补。相反,我们证明反转该流程(即“先对齐后蒸馏”,Align → KD)至关重要:必须首先在一个具备高召回能力的参考模型上完成对齐,再进行蒸馏。我们的贡献有三个方面:第一,我们提供了一个简洁而有效的解释,阐明参考模型如何在根本层面上限制偏好对齐的目标;第二,我们在可控的高斯混合模型(Mixture-of-Gaussians)实验中验证了这一理论,结果表明,低召回率的锚定始终导致模型性能次优;第三,我们在基于SmolLM2系列大语言模型(LLM)的对齐任务中证实了相同现象:在蒸馏后才进行对齐的模型无法有效对齐目标行为,导致奖励得分显著降低且目标行为精确度下降。相比之下,我们提出的“先对齐后蒸馏”流程能够稳健地实现这些行为的对齐,所得模型在面向目标的各项指标上表现更优,且方差更低。综上所述,这些结果确立了参考模型的召回能力在对齐设计中的首要地位,并提出了一个明确的原则:对齐必须先于蒸馏。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在高效对齐偏好(preference alignment)时,通常使用知识蒸馏(KD)后的紧凑模型进行对齐所带来的重要局限性问题。具体而言,这种常见做法忽略了参考模型的分布召回能力(distributional recall),导致难以对齐稀有但理想的行为。这是一个此前被忽视的关键问题,尤其在追求高效部署的小模型中尤为突出。
  • 关键思路
    论文提出应将对齐与蒸馏的顺序反转:先在具有高召回能力的教师模型上完成偏好对齐(Align),再进行知识蒸馏(KD),即 Align -> KD。这一顺序确保了稀有但 desirable 的行为能在对齐阶段被充分捕捉和保留,避免在低召回的蒸馏模型上因锚定不足而丢失。相比主流的 KD -> Align 流程,该思路强调参考模型的 recall 是影响对齐效果的一阶因素。
  • 其它亮点
    作者通过三个层面验证其观点:1)理论分析揭示参考模型如何从根本上约束对齐目标;2)在可控的 Mixture-of-Gaussians 实验中展示低召回锚定导致次优性能;3)在 SmolLM2 系列语言模型上的实证表明,Align -> KD 显著提升奖励得分和目标行为精准度,且方差更低。实验设计清晰,对比严谨,结果具有一致性。目前未提及代码是否开源,值得后续跟进。未来可深入探索不同规模模型间的 recall-precision 权衡,以及如何量化和增强参考模型的分布召回能力。
  • 相关研究
    1. Large Language Models are Zero-Shot Reasoners (2022) 2. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022) 3. Self-Alignment with Instruction Backtranslation (2023) 4. Direct Preference Optimization: Your Language Model is Secretly a Reward Model (2023) 5. Knowledge Distillation: A Survey (2021) 6. Aligning Language Models by Human Feedback: A Survey (2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问