报告主题:阿里千问&清华,少量的高熵tokens驱动大语言模型推理中的高效强化学习
报告日期:06月26日(周四)10:30-11:30
我们阿里Qwen团队和清华LeapLab团队通过详细分析大语言模型思维链和强化学习中的特点,发现思维链中仅有少量的tokens呈现高熵的状态,其主要起到 “fork”(分叉)的作用,决定了思维链的逻辑方向;大量的tokens呈现低熵的状态,其主要在高熵tokens既定的方向内完成推理;此外,我们发现强化学习很大程度地保留了base模型的熵特征(即哪些tokens需要高熵、哪些tokens需要低熵),并且主要仅改变高熵tokens的熵,低熵tokens的熵改变幅度较小。上述观察强调了高熵tokens在思维链和强化学习中的重要性。
基于上述观察,我们做了一个大胆的尝试:在强化学习中只用20%的高熵tokens、丢弃80%的低熵tokens。我们发现将训练聚焦在高熵tokens上可以显著提高大语言模型的推理能力,且模型参数量越大提升越明显,体现了较强的scaling性质。特别地,在32B模型上,我们在AIME'24和AIME'25上分别达到了63.5和56.7分,为当前600B以下从base模型做强化学习训练的SoTA。进一步地,如果将最大response length从20k扩展到28k进行续训,在AIME'24上可以达到68.1分,进一步刷新了SoTA。此外,我们做了大量的ablation study,并从token熵角度讨论了一些前沿问题的可能解释。
扫码报名
更多热门报告
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢