Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

2025年06月02日
  • 简介
    可验证奖励的强化学习(RLVR)作为一种提升大型语言模型(LLM)推理能力的强大方法已崭露头角,但其机制尚未被充分理解。在本研究中,我们通过全新的标记熵模式视角对RLVR进行了开创性探索,全面分析了不同标记对推理性能的影响。通过考察链式思维(CoT)推理中的标记熵模式,我们发现仅有少量标记表现出高熵特性,而这些高熵标记起到了关键分支点的作用,引导模型走向多样化的推理路径。此外,通过对RLVR训练过程中熵模式演变的研究,我们观察到RLVR主要遵循基础模型的熵模式,主要调整的是高熵标记的熵值。这些发现强调了高熵标记(即分支点标记)对RLVR的重要性。最终,我们通过限制策略梯度更新仅作用于分支点标记,进一步优化了RLVR,并揭示了一个超越80/20法则的现象:仅使用20%的标记即可在Qwen3-8B基础模型上实现与全梯度更新相当的性能,同时在Qwen3-32B基础模型上显著超越全梯度更新(AIME'25提升11.04分,AIME'24提升7.71分),以及在Qwen3-14B基础模型上也有显著提升(AIME'25提升4.79分,AIME'24提升5.21分),体现出强烈的规模效应。相反,若仅针对80%的低熵标记进行训练,则会导致性能明显下降。这些结果表明,RLVR的有效性主要来源于对决定推理方向的高熵标记的优化。总体而言,我们的研究结果表明,通过标记熵的视角可以更好地理解RLVR,并通过利用高熵少数标记来优化RLVR,从而进一步提升LLM的推理能力。
  • 图表
  • 解决问题
    该论文试图解决如何通过强化学习与可验证奖励(RLVR)优化大型语言模型(LLMs)的推理能力问题,并探索高熵token在这一过程中的作用。这是一个相对较新的研究方向,尤其是在从token熵角度分析RLVR机制方面。
  • 关键思路
    论文的关键思路是从token熵模式的角度分析RLVR对LLMs推理能力的影响,发现高熵token(即‘分叉token’)是决定推理路径的关键因素。基于此,作者提出了一种改进方法,即仅针对高熵token进行策略梯度更新,从而显著提升模型性能。这种方法相比传统的全梯度更新更加高效,且能够维持甚至超越原有性能。
  • 其它亮点
    论文通过实验验证了高熵token的重要性,并提出了一个超越80/20规则的现象:仅使用20%的高熵token即可实现与全梯度更新相当或更好的效果。实验使用了Qwen3系列模型(8B、14B、32B)以及AIME'25和AIME'24基准数据集,结果表明该方法在大规模模型上表现尤为突出。代码和进一步研究尚未提及是否开源,但未来可以深入研究如何将这种方法扩展到其他任务和模型架构中。
  • 相关研究
    近期相关研究包括:1) ‘Improving Language Model Reasoning via Reward Modeling’,探讨了奖励建模对LLMs推理能力的提升;2) ‘Token-Level Analysis of Language Models’,分析了token级别的行为对模型输出的影响;3) ‘Entropy Patterns in Neural Language Models’,研究了神经语言模型中熵模式的特性及其对生成质量的影响。这些研究为当前论文提供了理论基础和技术启发。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论