Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

向作者提问

NEW

简介

知识蒸馏通过将教师大语言模型（LLM）的知识压缩并迁移至更小的LLM中，从而提升其推理能力。在线策略蒸馏（on-policy distillation）进一步推进了这一范式：它让学生模型自主采样自身的推理轨迹，同时由教师LLM提供细粒度的词元级监督信号，从而缓解了离线策略蒸馏（off-policy distillation）方法中普遍存在的训练与推理阶段分布不匹配问题。然而，现有在线策略蒸馏方法通常需依赖一个独立的、往往规模更大的教师LLM，且未能显式利用推理数据集中已有的真实答案（ground-truth solutions）。受以下直觉启发——即一个能力足够强的LLM能够基于外部提供的、具有特权性质的推理过程（privileged reasoning traces）进行理性推断，并以此指导自身较弱版本（即无法访问该特权信息的版本）的学习——我们提出了“在线策略自蒸馏”（On-Policy Self-Distillation, OPSD）框架。在该框架中，单个模型同时承担教师与学生的双重角色，其区别仅在于所接收的上下文输入不同：教师策略以特权信息（例如经验证正确的推理过程）为条件，而学生策略仅以原始问题为输入；训练目标则是在学生模型自主生成的推理轨迹上，最小化教师与学生在每个词元位置上的概率分布之间的散度。我们在多个数学推理基准测试上验证了本方法的有效性：相比GRPO等强化学习方法，OPSD实现了4–8倍的词元利用效率提升；同时，在性能上也显著优于各类离线策略蒸馏方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决大型语言模型（LLM）推理能力蒸馏中的分布偏移与监督稀疏性问题：传统离策略蒸馏存在训练-推理分布不匹配，而在线策略蒸馏虽缓解该问题但依赖独立大模型教师、无法利用数据集中的真实推理轨迹（privileged ground-truth solutions），导致效率低、监督信号未充分挖掘。
关键思路

提出On-Policy Self-Distillation（OPSD）——单模型双角色蒸馏框架：同一LLM在训练中分饰‘教师’（条件于验证过的推理轨迹等特权信息）和‘学生’（仅见问题输入），通过最小化学生自采样轨迹上两策略的逐token KL散度实现端到端对齐；核心创新在于摒弃外部教师，转而利用模型自身对特权信息的理性化能力（rationalization）内生高质量监督。
其它亮点

在GSM8K、MATH、AIME等主流数学推理基准上显著超越Off-policy Distillation（如Distill-Math）及RL方法（GRPO），token效率提升4–8×；无需额外教师模型，节省部署与调用开销；训练完全基于公开推理数据集（含gold traces），不依赖人工标注或强化学习奖励建模；论文已开源代码与训练细节；未来可探索OPSD在多步规划、工具调用及非数学符号推理中的泛化，以及特权信息自动发现机制。
相关研究

1. 'Distilling Step-by-Step: Knowledge Distillation for Reasoning Models' (NeurIPS 2023); 2. 'GRPO: Generalized Reinforcement Learning with Policy Optimization for LLMs' (ICML 2024); 3. 'Self-Consistency Improves Chain of Thought Reasoning in Language Models' (ICLR 2023); 4. 'Rationalization-based Distillation for Faithful Reasoning' (ACL 2024); 5. 'Teaching Small Language Models to Reason via Process Supervision' (CoRL 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问