- 简介在线策略自蒸馏(OPSD)通过将模型自身的输出分布与其在“特权上下文”(通常为经验证正确的解答)下生成的分布对齐,为推理模型提供密集、细粒度的词元级监督信号。然而,我们发现,该分布差异所生成的学习信号主要集中于风格类词元,而非承载任务语义的关键词元;这是因为模型在获得提示后倾向于生成更直接、更简短的输出。我们将这一缺陷称为“特权诱导的风格偏移”(privilege-induced style drift),它会导致训练过程不稳定,或使模型响应长度持续缩减。为解决此问题,我们提出**RLCSD**(结合对比学习的在线策略自蒸馏,Reinforcement Learning with Contrastive on-policy Self-Distillation):该方法通过对比模型在正确提示与错误提示两种条件下教师—学生分布间的差距,抑制了“仅因施加提示”本身(无论提示是否正确)所引发的风格偏移,从而生成一种更聚焦于任务相关词元的学习信号。我们在Qwen3系列模型(1.7B/4B/8B)及Olmo-3-7B-Think模型上开展了涵盖数学与逻辑推理任务的实验,结果表明,RLCSD在各项指标上均持续优于GRPO及此前各类OPSD方法。进一步地,我们证实对比学习这一原则具有普适性:它可无缝融入现有OPSD方法以提升其性能;其核心思想亦可自然推广至更广泛的跨模型在线策略蒸馏场景。
-
- 图表
- 解决问题论文旨在解决On-policy Self-Distillation(OPSD)中因使用‘特权提示’(如验证过的答案)导致的‘privilege-induced style drift’问题:模型在蒸馏过程中过度优化输出风格(如变短、更直接),而非提升对任务关键token(如推理步骤、逻辑依据)的建模能力,进而损害推理泛化性与训练稳定性。这是一个新识别的、未被先前OPSD工作系统揭示和建模的病理现象。
- 关键思路提出RLCSD(Reinforcement Learning with Contrastive on-policy Self-Distillation):通过引入对比学习机制,显式比较同一模型在‘正确提示’与‘错误提示’下的分布差异,剥离出与提示正确性相关的真实任务信号(task-bearing token alignment),抑制与提示存在本身相关的风格偏移(style shift)。其核心新意在于将‘提示条件性偏差’建模为干扰项,并用对比结构进行解耦——这是首次将对比学习原则系统性嵌入on-policy蒸馏框架以校准监督信号。
- 其它亮点在Qwen3(1.7B/4B/8B)和Olmo-3-7B-Think上验证,覆盖GSM8K、MATH、LogiQA等数学与逻辑推理基准;显著超越GRPO及主流OPSD方法(如Self-Refine、STaR变体);方法即插即用——可无缝增强现有OPSD流程;作者开源代码与训练日志;值得深入的方向包括:对比提示构造的自动化、跨长度/格式的风格不变对齐、以及向多步规划与工具调用场景的迁移。
- Self-Refine: Iterative Refinement of Language Models (ICML 2024); STaR: Bootstrapping Reasoning With Reasoning (NeurIPS 2023); GRPO: Generalized Reinforcement Learning with Policy Optimization for Reasoning (ICLR 2024); Direct Preference Optimization (DPO) and its reasoning variants (e.g., RFT, RLAIF); On-policy distillation in LLMs (e.g., 'Distilling Step-by-Step', ACL 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流