- 简介近期,带有可验证奖励的强化学习(RLVR)在提升大语言模型(LLM)的推理能力方面展现了显著的成功,尤其是在数学和编程任务中。人们普遍认为,RLVR 能够让 LLM 持续自我改进,从而获得超越其基础模型能力的新推理能力。然而,在本研究中,我们通过测量 pass@*k* 指标(使用较大的 *k* 值),对这一假设进行了批判性重新审视,以探索不同模型家族和基准测试中模型推理能力的边界。令人惊讶的是,强化学习(RL)实际上并未引发根本性的新推理模式。虽然经过 RL 训练的模型在较小的 *k* 值(例如 *k*=1)时表现优于其基础模型,但在较大的 *k* 值时,基础模型却能够达到甚至超过其 RL 对应模型的 pass@*k* 分数。这表明,RL 训练模型生成的推理路径实际上已经包含在其基础模型的采样分布中,这意味着大多数在 RL 训练模型中体现的推理能力实际上已经被基础模型所掌握。进一步分析显示,RL 训练通过使模型输出分布偏向更容易获得奖励的路径来提升性能,从而更高效地采样正确答案。但这也导致了与基础模型相比,推理能力边界的范围变得更窄。在使用 RLVR 训练的视觉推理任务中,我们也观察到了类似的结果。此外,我们发现知识蒸馏确实可以为模型引入新的知识,这一点与 RLVR 不同。这些发现揭示了 RLVR 在推进 LLM 推理能力方面的关键局限性,促使我们重新思考 RL 训练对推理型 LLM 的影响,并探索更好的范式需求。 项目页面:https://limit-of-RLVR.github.io
- 图表
- 解决问题论文试图验证强化学习通过可验证奖励(RLVR)是否能为大语言模型(LLMs)带来全新的推理能力,特别是在数学和编程任务中。研究发现这并非一个全新问题,而是对现有假设的重新审视。
- 关键思路关键思路是通过测量 pass@k 指标(特别是较大的 k 值),评估 RLVR 训练模型与基础模型在推理边界上的差异。研究表明,RLVR 并未引入新的推理模式,而是通过优化输出分布提高了正确答案的采样效率,但同时也限制了模型的推理多样性。
- 其它亮点实验设计包括跨多个模型家族和基准测试集的对比分析,涵盖了视觉推理任务。研究发现知识蒸馏比 RLVR 更能引入新知识。项目代码和详细结果已在 https://limit-of-RLVR.github.io 开源,为未来探索如何改进 LLM 推理能力提供了方向。
- 相关研究包括:1) 'Reinforcement Learning with Verifiable Rewards for Language Models',提出 RLVR 方法;2) 'Chain of Thought Prompting Elicits Reasoning in Large Language Models',探讨提示工程对推理的影响;3) 'Distilling Knowledge from a Teacher Model to Enhance Reasoning Capabilities',研究知识蒸馏对推理能力的作用。
沙发等你来抢
去评论
评论
沙发等你来抢