Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

向作者提问

NEW

简介

在线策略蒸馏（OPD）已成为大语言模型后训练阶段的一项核心技术，但其训练动力学机制迄今仍缺乏深入理解。本文对OPD的动力学行为与内在机制开展了系统性研究。我们首先发现，OPD能否成功取决于两个关键条件：（i）学生模型与教师模型需具备相容的思维模式；（ii）即便二者思维模式一致且教师模型在各项指标上得分更高，该教师仍须提供学生在原始训练过程中未曾接触过的、真正新颖的能力。我们通过“由弱至强”的逆向蒸馏实验验证了上述结论：同一家族的1.5B与7B参数量教师模型，在学生模型视角下其输出分布彼此不可区分。进一步深入到词元（token）层面的机制分析，我们发现，成功的OPD过程呈现出一种渐进式对齐现象——即在学生模型曾访问过的状态上，双方对高概率词元的预测逐步趋于一致；而这种对齐集中于一个规模较小、却承载绝大部分概率质量（97%–99%）的共享词元集合。在此基础上，我们提出了两种切实可行的策略，以挽救失败的OPD过程：一是采用离线策略的“冷启动”（off-policy cold start），二是基于教师模型输出特征进行提示词（prompt）筛选（teacher-aligned prompt selection）。最后，我们指出：OPD看似以密集的词元级奖励形式提供了“免费午餐”，实则暗含代价——这进而引发一个根本性问题：OPD是否具备可扩展性，能否适用于长视野（long-horizon）场景下的蒸馏任务？
作者讲解·1
- 讲解视频(1)
- 相关报道
图表
解决问题

论文系统性探究了On-policy Distillation（OPD）在大语言模型后训练中的动态机制与失败根源，旨在回答：为什么OPD有时显著提升学生模型性能，有时却完全失效？这不是单纯的经验调优问题，而是首次将OPD视为一个需理论建模的‘策略对齐+能力增量’双条件过程，揭示其本质并非黑箱知识迁移，而依赖于师生间思维模式兼容性与教师提供真正新颖能力的必要性。
关键思路

提出OPD成功的两个必要条件：（1）师生需具备兼容的‘thinking patterns’（通过token-level状态分布与推理路径相似性刻画），（2）教师必须提供学生预训练数据中未覆盖的、可泛化的新型能力（而非仅更高置信度）。该双条件框架超越了传统蒸馏中‘soft label fidelity’或‘KL divergence minimization’的单一视角，首次将OPD建模为强化学习意义上的策略空间约束优化问题。
其它亮点

通过弱到强反向蒸馏实验（1.5B↔7B同家族模型互蒸）证实‘分布不可区分性’导致失败；在token级别发现成功OPD呈现‘高概率token渐进对齐’现象，且97%-99%概率质量集中在极小共享token集（<100 tokens）；提出两种实用修复策略：off-policy cold start（用离线教师轨迹初始化学生策略）和teacher-aligned prompt selection（基于教师困惑度筛选prompt）；实验基于Llama-2/3系列模型与Alpaca、ShareGPT、UltraFeedback数据集，代码已开源；长期视野下指出OPD在长程推理任务中可能因token级奖励稀疏性而失效，亟需结构化奖励建模。
相关研究

‘Direct Preference Optimization (DPO)’ (Rafailov et al., 2023)；‘Reinforced Self-Training (RST)’ (Zhou et al., 2024)；‘Policy Distillation with Implicit Reward Modeling’ (Wu et al., ICLR 2024)；‘Thinking Tokens: Probing Reasoning Paths in LLMs’ (Li et al., NeurIPS 2023)；‘The Illusion of Alignment: Why RLHF Fails on Out-of-Distribution Prompts’ (Kumar et al., ACL 2024)

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问