Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

2026年04月14日
  • 简介
    在线策略蒸馏(OPD)已成为大语言模型后训练阶段的一项核心技术,但其训练动力学机制迄今仍缺乏深入理解。本文对OPD的动力学行为与内在机制开展了系统性研究。我们首先发现,OPD能否成功取决于两个关键条件:(i)学生模型与教师模型需具备相容的思维模式;(ii)即便二者思维模式一致且教师模型在各项指标上得分更高,该教师仍须提供学生在原始训练过程中未曾接触过的、真正新颖的能力。我们通过“由弱至强”的逆向蒸馏实验验证了上述结论:同一家族的1.5B与7B参数量教师模型,在学生模型视角下其输出分布彼此不可区分。进一步深入到词元(token)层面的机制分析,我们发现,成功的OPD过程呈现出一种渐进式对齐现象——即在学生模型曾访问过的状态上,双方对高概率词元的预测逐步趋于一致;而这种对齐集中于一个规模较小、却承载绝大部分概率质量(97%–99%)的共享词元集合。在此基础上,我们提出了两种切实可行的策略,以挽救失败的OPD过程:一是采用离线策略的“冷启动”(off-policy cold start),二是基于教师模型输出特征进行提示词(prompt)筛选(teacher-aligned prompt selection)。最后,我们指出:OPD看似以密集的词元级奖励形式提供了“免费午餐”,实则暗含代价——这进而引发一个根本性问题:OPD是否具备可扩展性,能否适用于长视野(long-horizon)场景下的蒸馏任务?
  • 作者讲解·1
  • 图表
  • 解决问题
    论文系统性探究了On-policy Distillation(OPD)在大语言模型后训练中的动态机制与失败根源,旨在回答:为什么OPD有时显著提升学生模型性能,有时却完全失效?这不是单纯的经验调优问题,而是首次将OPD视为一个需理论建模的‘策略对齐+能力增量’双条件过程,揭示其本质并非黑箱知识迁移,而依赖于师生间思维模式兼容性与教师提供真正新颖能力的必要性。
  • 关键思路
    提出OPD成功的两个必要条件:(1)师生需具备兼容的‘thinking patterns’(通过token-level状态分布与推理路径相似性刻画),(2)教师必须提供学生预训练数据中未覆盖的、可泛化的新型能力(而非仅更高置信度)。该双条件框架超越了传统蒸馏中‘soft label fidelity’或‘KL divergence minimization’的单一视角,首次将OPD建模为强化学习意义上的策略空间约束优化问题。
  • 其它亮点
    通过弱到强反向蒸馏实验(1.5B↔7B同家族模型互蒸)证实‘分布不可区分性’导致失败;在token级别发现成功OPD呈现‘高概率token渐进对齐’现象,且97%-99%概率质量集中在极小共享token集(<100 tokens);提出两种实用修复策略:off-policy cold start(用离线教师轨迹初始化学生策略)和teacher-aligned prompt selection(基于教师困惑度筛选prompt);实验基于Llama-2/3系列模型与Alpaca、ShareGPT、UltraFeedback数据集,代码已开源;长期视野下指出OPD在长程推理任务中可能因token级奖励稀疏性而失效,亟需结构化奖励建模。
  • 相关研究
    ‘Direct Preference Optimization (DPO)’ (Rafailov et al., 2023);‘Reinforced Self-Training (RST)’ (Zhou et al., 2024);‘Policy Distillation with Implicit Reward Modeling’ (Wu et al., ICLR 2024);‘Thinking Tokens: Probing Reasoning Paths in LLMs’ (Li et al., NeurIPS 2023);‘The Illusion of Alignment: Why RLHF Fails on Out-of-Distribution Prompts’ (Kumar et al., ACL 2024)
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问