视频:基础模型及其跨多个数学基准的零 RL 训练对应模型的 pass@k 曲线。
当 k 较小时,RL 训练的模型的性能优于其基本版本。然而,随着 k 增加到数十或数百,
基础模型在所有基准和 LLM 系列中始终如一地赶上 RL 训练的模型,无一例外。
最终,基础模型超过了 RL 训练的模型。
介绍我们的工作
OpenAI-o1、DeepSeek-R1 和 Kimi-1.5 等以推理为中心的大型语言模型 (LLM) 的最新突破在很大程度上依赖于具有可验证奖励的强化学习 (RLVR),它用自动奖励(例如,经过验证的数学解决方案或通过代码测试)取代人工注释,以扩展自我提升。虽然 RLVR 增强了自我反省和迭代精炼等推理行为,但我们挑战了一个核心假设:
RLVR 实际上是扩展了 LLM 的推理能力,还是仅仅优化了现有的推理能力?
通过pass@k评估模型,成功只需要 k 次尝试中的一个正确解决方案,我们发现 RL 训练的模型在低 k 值(例如,pass@1)下表现出色,但在高 k 值(例如,pass@256)下始终优于基础模型。这表明 RLVR 缩小了模型的探索范围,偏爱已知的高回报路径,而不是发现新的推理策略。至关重要的是,RL 训练模型的所有正确解都已经存在于基本模型的分布中,这证明 RLVR 提高了采样效率,而不是推理能力,同时无意中缩小了解空间。
视频:RLVR 对 LLM 推理能力的影响。搜索树是通过对给定问题的基础模型和
RLVR 训练模型进行重复采样而生成的。灰色表示模型不太可能采样的路径,而黑色
表示可能被采样的路径。绿色表示正确的路径,具有正奖励。
我们的主要发现是,RLVR 模型中的所有推理路径都已经存在于基本模型中。
对于问题 A 等某些问题,RLVR 训练使分布偏向于奖励路径,从而提高了采样
效率。然而,这是以缩小推理能力范围为代价的:对于问题 B 等其他问题,
基本模型包含正确的路径,而 RLVR 模型的模型则不包含。
结论
- 在大 k 值下,RL 训练模型在 pass@k 方面的表现比基础模型差。
虽然 RL 训练的模型在低采样量(小 k)下的表现优于基础模型,但在所有基准中,基本模型在较大的 k 下始终超过它们,甚至获得了更高的 pass@k 分数。手动检查表明,基础模型可以通过生成不同的推理路径来解决被认为需要 RL 训练的问题,每个问题至少有一个正确的解决方案。这表明,与基本模型中的激进采样相比,RL 训练不会增强甚至可能限制 LLM 的全部推理潜力。 - RL 提高了采样效率,但减少了推理容量边界。
分析表明,RLVR 训练的模型已经在基础模型的输出分布内生成推理路径,这意味着 RLVR 将模型偏向于更高奖励的解决方案,而不是创造全新的推理能力。然而,这种对奖励路径的关注降低了模型的探索能力,从而限制了它在较大样本量下对可解决问题的覆盖。这些发现表明,RLVR 并没有从根本上超越基本模型的推理能力,而是以更广泛的问题解决多样性为代价优化了现有路径。 - RLVR 算法的性能类似,但远非最佳。
该研究比较了各种 RL 算法(PPO、GRPO、Reinforce++),发现它们的性能差异很小,通过采样效率差距 (∆SE) 来衡量,该差距评估它们与最佳采样效率的接近程度。尽管算法之间的 ∆SE 略有不同,但所有方法的差距仍然很大。这表明当前专注于提高采样效率的 RL 方法仍远未达到最佳性能。 - RLVR 和蒸馏有根本的不同。
虽然 RL 提高了采样效率,但蒸馏可以真正将新知识引入模型。因此,通过与蒸馏模型学习,提炼模型通常表现出超出基础模型的扩展推理能力范围,而 RLVR 训练的模型则容量仍受基础模型限制。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢