Why Alignment Must Precede Distillation: A Minimal Working Explanation

向作者提问

NEW

简介

为了提高效率，偏好对齐通常在经过知识蒸馏（KD）得到的紧凑模型上进行。我们认为，这种常见做法存在一个重大局限，即忽视了对齐过程中参考模型的一个关键特性：其分布召回能力（distributional recall）。我们指出，标准的“先蒸馏后对齐”（KD → Align）流程会削弱模型对那些虽罕见但理想行为的对齐能力，即使存在强烈的偏好信号也难以弥补。相反，我们证明反转该流程（即“先对齐后蒸馏”，Align → KD）至关重要：必须首先在一个具备高召回能力的参考模型上完成对齐，再进行蒸馏。我们的贡献有三个方面：第一，我们提供了一个简洁而有效的解释，阐明参考模型如何在根本层面上限制偏好对齐的目标；第二，我们在可控的高斯混合模型（Mixture-of-Gaussians）实验中验证了这一理论，结果表明，低召回率的锚定始终导致模型性能次优；第三，我们在基于SmolLM2系列大语言模型（LLM）的对齐任务中证实了相同现象：在蒸馏后才进行对齐的模型无法有效对齐目标行为，导致奖励得分显著降低且目标行为精确度下降。相比之下，我们提出的“先对齐后蒸馏”流程能够稳健地实现这些行为的对齐，所得模型在面向目标的各项指标上表现更优，且方差更低。综上所述，这些结果确立了参考模型的召回能力在对齐设计中的首要地位，并提出了一个明确的原则：对齐必须先于蒸馏。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决在高效对齐偏好（preference alignment）时，通常使用知识蒸馏（KD）后的紧凑模型进行对齐所带来的重要局限性问题。具体而言，这种常见做法忽略了参考模型的分布召回能力（distributional recall），导致难以对齐稀有但理想的行为。这是一个此前被忽视的关键问题，尤其在追求高效部署的小模型中尤为突出。
关键思路

论文提出应将对齐与蒸馏的顺序反转：先在具有高召回能力的教师模型上完成偏好对齐（Align），再进行知识蒸馏（KD），即 Align -> KD。这一顺序确保了稀有但 desirable 的行为能在对齐阶段被充分捕捉和保留，避免在低召回的蒸馏模型上因锚定不足而丢失。相比主流的 KD -> Align 流程，该思路强调参考模型的 recall 是影响对齐效果的一阶因素。
其它亮点

作者通过三个层面验证其观点：1）理论分析揭示参考模型如何从根本上约束对齐目标；2）在可控的 Mixture-of-Gaussians 实验中展示低召回锚定导致次优性能；3）在 SmolLM2 系列语言模型上的实证表明，Align -> KD 显著提升奖励得分和目标行为精准度，且方差更低。实验设计清晰，对比严谨，结果具有一致性。目前未提及代码是否开源，值得后续跟进。未来可深入探索不同规模模型间的 recall-precision 权衡，以及如何量化和增强参考模型的分布召回能力。
相关研究

1. Large Language Models are Zero-Shot Reasoners (2022) 2. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022) 3. Self-Alignment with Instruction Backtranslation (2023) 4. Direct Preference Optimization: Your Language Model is Secretly a Reward Model (2023) 5. Knowledge Distillation: A Survey (2021) 6. Aligning Language Models by Human Feedback: A Survey (2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问