Spurious Rewards: Rethinking Training Signals in RLVR

2025年06月12日
  • 简介
    我们证明了带有可验证奖励的强化学习(RLVR)能够在某些模型中激发强大的数学推理能力,即使奖励与正确答案的相关性很低、没有相关性,甚至为负相关。例如,RLVR 在绝对分数上提升了 Qwen2.5-Math-7B 的 MATH-500 表现:随机奖励提升 21.4%,格式奖励提升 13.8%,错误标签奖励提升 24.1%,单次强化学习(1-shot RL)提升 26.0%,多数投票奖励提升 27.1%——几乎接近使用真实奖励获得的 29.1% 提升。然而,对 Qwen 起作用的这些虚假奖励通常无法在其他模型家族(如 Llama3 或 OLMo2)上产生类似的收益。特别地,我们发现“代码推理”——即不执行实际代码的情况下以代码形式思考——是 Qwen2.5-Math 的一种独特行为,并且在经过 RLVR 后显著变得更加频繁,从 65% 增加到超过 90%,即使使用虚假奖励也是如此。总体而言,我们推测,在缺乏有效奖励信号的情况下,RLVR 必定以某种方式挖掘出了预训练过程中学到的有用推理表示,尽管其确切机制仍需未来研究进一步探讨。我们建议未来的 RLVR 研究应可能在多种模型上进行验证,而不仅仅依赖于单一的默认选择,因为我们已经表明,即使使用完全虚假的奖励信号,也容易在 Qwen 模型上获得显著的性能提升。
  • 图表
  • 解决问题
    该论文试图验证强化学习与可验证奖励(RLVR)是否能够在存在误导性或无用奖励信号的情况下,提升模型的数学推理能力。这是一个新颖的问题,因为它探讨了在缺乏明确奖励信号时,模型如何利用预训练知识进行推理。
  • 关键思路
    论文的关键思路是通过RLVR方法,在使用随机、格式化错误、甚至负相关等‘无意义’奖励信号的情况下,仍能显著提升Qwen2.5-Math-7B模型的数学推理能力。相比现有研究,这篇论文揭示了模型可能从预训练中提取并利用隐式知识的机制,即使奖励信号本身并不提供直接指导。
  • 其它亮点
    实验设计包括多种类型的奖励信号(如随机、格式化、错误标签等),并在MATH-500数据集上测试性能。结果显示,Qwen模型在这些‘无意义’奖励下依然获得了接近真实奖励的性能提升。此外,作者发现代码推理行为在RLVR后显著增加,这可能是Qwen模型的一个独特特性。值得注意的是,这种现象并未在其他模型家族(如Llama3和OLMo2)中复现。论文未提及开源代码,但提出了未来研究应关注跨模型验证的重要性。
  • 相关研究
    近期相关研究包括:1)《Improving Mathematical Reasoning via Pretrained Language Models》探讨了预训练模型在数学推理中的潜力;2)《Reward Shaping in Reinforcement Learning for Natural Language Tasks》研究了奖励设计对自然语言任务的影响;3)《Code-Assisted Reasoning in Large Language Models》分析了代码生成对推理能力的促进作用。这些工作共同构成了当前关于模型推理能力和奖励机制优化的研究背景。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论