报告主题:阿里千问&清华,少量的高熵tokens驱动大语言模型推理中的高效强化学习

报告日期:06月26日(周四)10:30-11:30

报告要点:

我们阿里Qwen团队和清华LeapLab团队通过详细分析大语言模型思维链和强化学习中的特点,发现思维链中仅有少量的tokens呈现高熵的状态,其主要起到 “fork”(分叉)的作用,决定了思维链的逻辑方向;大量的tokens呈现低熵的状态,其主要在高熵tokens既定的方向内完成推理;此外,我们发现强化学习很大程度地保留了base模型的熵特征(即哪些tokens需要高熵、哪些tokens需要低熵),并且主要仅改变高熵tokens的熵,低熵tokens的熵改变幅度较小。上述观察强调了高熵tokens在思维链和强化学习中的重要性。

基于上述观察,我们做了一个大胆的尝试:在强化学习中只用20%的高熵tokens、丢弃80%的低熵tokens。我们发现将训练聚焦在高熵tokens上可以显著提高大语言模型的推理能力,且模型参数量越大提升越明显,体现了较强的scaling性质。特别地,在32B模型上,我们在AIME'24和AIME'25上分别达到了63.5和56.7分,为当前600B以下从base模型做强化学习训练的SoTA。进一步地,如果将最大response length从20k扩展到28k进行续训,在AIME'24上可以达到68.1分,进一步刷新了SoTA。此外,我们做了大量的ablation study,并从token熵角度讨论了一些前沿问题的可能解释。

报告嘉宾:
作者王慎执为清华大学自动化系直博四年级博士生,研究方向是强化学习以及大语言模型,其研究成果涉及强化学习、大语言模型后训练、大语言模型应用等多个方面。目前发表文章10余篇,主要发表在NeurIPS、ICML、CVPR、ACL、AAAI、IEEE TNNLS等顶级会议和期刊,包括一篇NeurIPS Spotlight和一篇AAAI Oral文章。在开源模型方面,作为核心开发者开源了Llama3-Chinese-Chat、Gemma-2-Chinese-Chat等系列中文模型(累计下载量突破100万次)以及Xwen-Chat模型(其72B模型在Arena-Hard上超越了当时的最强模型DeepSeek-V3)。在开源代码方面,作为开发者之一参与了EasyR1(多模态模型强化学习框架,2.7k stars)和Cooragent(多智能体协作框架,1.7k stars)等项目。

扫码报名


更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除