RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation

向作者提问

NEW

简介

在线策略自蒸馏（OPSD）通过将模型自身的输出分布与其在“特权上下文”（通常为经验证正确的解答）下生成的分布对齐，为推理模型提供密集、细粒度的词元级监督信号。然而，我们发现，该分布差异所生成的学习信号主要集中于风格类词元，而非承载任务语义的关键词元；这是因为模型在获得提示后倾向于生成更直接、更简短的输出。我们将这一缺陷称为“特权诱导的风格偏移”（privilege-induced style drift），它会导致训练过程不稳定，或使模型响应长度持续缩减。为解决此问题，我们提出**RLCSD**（结合对比学习的在线策略自蒸馏，Reinforcement Learning with Contrastive on-policy Self-Distillation）：该方法通过对比模型在正确提示与错误提示两种条件下教师—学生分布间的差距，抑制了“仅因施加提示”本身（无论提示是否正确）所引发的风格偏移，从而生成一种更聚焦于任务相关词元的学习信号。我们在Qwen3系列模型（1.7B/4B/8B）及Olmo-3-7B-Think模型上开展了涵盖数学与逻辑推理任务的实验，结果表明，RLCSD在各项指标上均持续优于GRPO及此前各类OPSD方法。进一步地，我们证实对比学习这一原则具有普适性：它可无缝融入现有OPSD方法以提升其性能；其核心思想亦可自然推广至更广泛的跨模型在线策略蒸馏场景。
作者讲解·1
- 讲解视频(1)
- 相关报道
图表
解决问题

论文旨在解决On-policy Self-Distillation（OPSD）中因使用‘特权提示’（如验证过的答案）导致的‘privilege-induced style drift’问题：模型在蒸馏过程中过度优化输出风格（如变短、更直接），而非提升对任务关键token（如推理步骤、逻辑依据）的建模能力，进而损害推理泛化性与训练稳定性。这是一个新识别的、未被先前OPSD工作系统揭示和建模的病理现象。
关键思路

提出RLCSD（Reinforcement Learning with Contrastive on-policy Self-Distillation）：通过引入对比学习机制，显式比较同一模型在‘正确提示’与‘错误提示’下的分布差异，剥离出与提示正确性相关的真实任务信号（task-bearing token alignment），抑制与提示存在本身相关的风格偏移（style shift）。其核心新意在于将‘提示条件性偏差’建模为干扰项，并用对比结构进行解耦——这是首次将对比学习原则系统性嵌入on-policy蒸馏框架以校准监督信号。
其它亮点

在Qwen3（1.7B/4B/8B）和Olmo-3-7B-Think上验证，覆盖GSM8K、MATH、LogiQA等数学与逻辑推理基准；显著超越GRPO及主流OPSD方法（如Self-Refine、STaR变体）；方法即插即用——可无缝增强现有OPSD流程；作者开源代码与训练日志；值得深入的方向包括：对比提示构造的自动化、跨长度/格式的风格不变对齐、以及向多步规划与工具调用场景的迁移。
相关研究

Self-Refine: Iterative Refinement of Language Models (ICML 2024); STaR: Bootstrapping Reasoning With Reasoning (NeurIPS 2023); GRPO: Generalized Reinforcement Learning with Policy Optimization for Reasoning (ICLR 2024); Direct Preference Optimization (DPO) and its reasoning variants (e.g., RFT, RLAIF); On-policy distillation in LLMs (e.g., 'Distilling Step-by-Step', ACL 2023)

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问