
报告主题:清华 & 阿里通义 | RLCSD:基于对比信号的在线自蒸馏强化学习
报告日期:07月02日(周四) 10:30-11:30
本文聚焦大语言模型推理能力训练中的在线自蒸馏强化学习问题。已有 OPSD 方法通常利用模型在正确提示或特权信息下的输出分布作为自教师,提供 token-level 监督信号;但论文发现,这类信号容易被“风格差异”主导,例如倾向于更短、更直接的表达,而未必真正聚焦于关键推理步骤。为此,RLCSD 引入对比式在线自蒸馏信号,通过对比正确提示与错误提示下的教师-学生分布差异,削弱由提示带来的通用风格偏移,使学习信号更集中于任务相关 token。实验表明,RLCSD 在数学与逻辑推理任务上均能稳定提升模型表现,并可与已有 OPSD 方法结合使用。
议题详情:
在线策略自蒸馏(OPSD)通过将模型自身的输出分布与其在“特权上下文”(通常为经验证的正确解答)下生成的分布对齐,为推理模型提供密集、细粒度的词元级监督信号。然而我们发现,该分布差异所产生的学习信号主要集中于风格类词元,而非承载任务语义的关键词元——模型在获得正确提示后,倾向于生成更直接、更简短的输出。我们将此缺陷称为“特权诱导的风格偏移”,它可能导致训练不稳定,或使模型响应长度持续缩减。
为此,我们提出 RLCSD(基于对比信号的在线自蒸馏强化学习):通过对比模型在正确提示与错误提示两种条件下教师—学生分布的差异,有效抑制因“施加提示”本身(无论正确与否)所引发的风格偏移,从而生成更聚焦于任务相关词元的学习信号。在Qwen3系列(1.7B/4B/8B)及Olmo-3-7B-Think模型上,覆盖数学与逻辑推理任务的实验表明,RLCSD在各指标上均一致优于GRPO及此前各类OPSD方法。此外,我们验证了对比学习原则的普适性:它可无缝集成至现有OPSD方法中以提升性能,其核心思想亦可自然扩展至更广泛的跨模型在线策略蒸馏场景。
报告嘉宾:

潘乐怡,清华大学博士生,导师为闻立杰副教授。她于 2024 年本科毕业于清华大学,现为阿里巴巴通义实验室研究实习生。她的研究方向包括大模型强化学习、可信大模型等,已在 ICLR、ACL、EMNLP 等国际顶级会议及期刊发表多篇学术论文,谷歌学术引用 1200 余次。曾获北京市优秀毕业生、清华大学优良毕业生等荣誉。



内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢