清华&阿里千问｜对比蒸馏，让模型学“对”的推理，基于对比信号在线自蒸馏强化学习

报告主题：清华 & 阿里通义 | RLCSD：基于对比信号的在线自蒸馏强化学习

报告日期：07月02日（周四） 10:30-11:30

报告要点：

本文聚焦大语言模型推理能力训练中的在线自蒸馏强化学习问题。已有 OPSD 方法通常利用模型在正确提示或特权信息下的输出分布作为自教师，提供 token-level 监督信号；但论文发现，这类信号容易被“风格差异”主导，例如倾向于更短、更直接的表达，而未必真正聚焦于关键推理步骤。为此，RLCSD 引入对比式在线自蒸馏信号，通过对比正确提示与错误提示下的教师-学生分布差异，削弱由提示带来的通用风格偏移，使学习信号更集中于任务相关 token。实验表明，RLCSD 在数学与逻辑推理任务上均能稳定提升模型表现，并可与已有 OPSD 方法结合使用。

议题详情：

在线策略自蒸馏（OPSD）通过将模型自身的输出分布与其在“特权上下文”（通常为经验证的正确解答）下生成的分布对齐，为推理模型提供密集、细粒度的词元级监督信号。然而我们发现，该分布差异所产生的学习信号主要集中于风格类词元，而非承载任务语义的关键词元——模型在获得正确提示后，倾向于生成更直接、更简短的输出。我们将此缺陷称为“特权诱导的风格偏移”，它可能导致训练不稳定，或使模型响应长度持续缩减。

为此，我们提出 RLCSD（基于对比信号的在线自蒸馏强化学习）：通过对比模型在正确提示与错误提示两种条件下教师—学生分布的差异，有效抑制因“施加提示”本身（无论正确与否）所引发的风格偏移，从而生成更聚焦于任务相关词元的学习信号。在Qwen3系列（1.7B/4B/8B）及Olmo-3-7B-Think模型上，覆盖数学与逻辑推理任务的实验表明，RLCSD在各指标上均一致优于GRPO及此前各类OPSD方法。此外，我们验证了对比学习原则的普适性：它可无缝集成至现有OPSD方法中以提升性能，其核心思想亦可自然扩展至更广泛的跨模型在线策略蒸馏场景。

报告嘉宾：

潘乐怡，清华大学博士生，导师为闻立杰副教授。她于 2024 年本科毕业于清华大学，现为阿里巴巴通义实验室研究实习生。她的研究方向包括大模型强化学习、可信大模型等，已在 ICLR、ACL、EMNLP 等国际顶级会议及期刊发表多篇学术论文，谷歌学术引用 1200 余次。曾获北京市优秀毕业生、清华大学优良毕业生等荣誉。

电脑端观看地址

更多热门活动：

内容中包含的图片若涉及版权问题，请及时与我们联系删除

清华&阿里千问｜对比蒸馏，让模型学“对”的推理，基于对比信号在线自蒸馏强化学习

评论列表

评论