- 简介知识蒸馏通过将教师大语言模型(LLM)的知识压缩并迁移至更小的LLM中,从而提升其推理能力。在线策略蒸馏(on-policy distillation)进一步推进了这一范式:它让学生模型自主采样自身的推理轨迹,同时由教师LLM提供细粒度的词元级监督信号,从而缓解了离线策略蒸馏(off-policy distillation)方法中普遍存在的训练与推理阶段分布不匹配问题。然而,现有在线策略蒸馏方法通常需依赖一个独立的、往往规模更大的教师LLM,且未能显式利用推理数据集中已有的真实答案(ground-truth solutions)。受以下直觉启发——即一个能力足够强的LLM能够基于外部提供的、具有特权性质的推理过程(privileged reasoning traces)进行理性推断,并以此指导自身较弱版本(即无法访问该特权信息的版本)的学习——我们提出了“在线策略自蒸馏”(On-Policy Self-Distillation, OPSD)框架。在该框架中,单个模型同时承担教师与学生的双重角色,其区别仅在于所接收的上下文输入不同:教师策略以特权信息(例如经验证正确的推理过程)为条件,而学生策略仅以原始问题为输入;训练目标则是在学生模型自主生成的推理轨迹上,最小化教师与学生在每个词元位置上的概率分布之间的散度。我们在多个数学推理基准测试上验证了本方法的有效性:相比GRPO等强化学习方法,OPSD实现了4–8倍的词元利用效率提升;同时,在性能上也显著优于各类离线策略蒸馏方法。
-
- 图表
- 解决问题解决大型语言模型(LLM)推理能力蒸馏中的分布偏移与监督稀疏性问题:传统离策略蒸馏存在训练-推理分布不匹配,而在线策略蒸馏虽缓解该问题但依赖独立大模型教师、无法利用数据集中的真实推理轨迹(privileged ground-truth solutions),导致效率低、监督信号未充分挖掘。
- 关键思路提出On-Policy Self-Distillation(OPSD)——单模型双角色蒸馏框架:同一LLM在训练中分饰‘教师’(条件于验证过的推理轨迹等特权信息)和‘学生’(仅见问题输入),通过最小化学生自采样轨迹上两策略的逐token KL散度实现端到端对齐;核心创新在于摒弃外部教师,转而利用模型自身对特权信息的理性化能力(rationalization)内生高质量监督。
- 其它亮点在GSM8K、MATH、AIME等主流数学推理基准上显著超越Off-policy Distillation(如Distill-Math)及RL方法(GRPO),token效率提升4–8×;无需额外教师模型,节省部署与调用开销;训练完全基于公开推理数据集(含gold traces),不依赖人工标注或强化学习奖励建模;论文已开源代码与训练细节;未来可探索OPSD在多步规划、工具调用及非数学符号推理中的泛化,以及特权信息自动发现机制。
- 1. 'Distilling Step-by-Step: Knowledge Distillation for Reasoning Models' (NeurIPS 2023); 2. 'GRPO: Generalized Reinforcement Learning with Policy Optimization for LLMs' (ICML 2024); 3. 'Self-Consistency Improves Chain of Thought Reasoning in Language Models' (ICLR 2023); 4. 'Rationalization-based Distillation for Faithful Reasoning' (ACL 2024); 5. 'Teaching Small Language Models to Reason via Process Supervision' (CoRL 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流