- 简介我们证明了使用可验证奖励的单样本强化学习(1-shot RLVR)在激励大型语言模型(LLMs)数学推理能力方面的有效性。通过将RLVR应用于基础模型Qwen2.5-Math-1.5B,我们发现一个单一示例能够将模型在MATH500上的表现从36.0%提升至73.6%,并且将六个常见数学推理基准测试的平均表现从17.6%提高到35.7%。这一结果与使用包含上述示例的1.2k DeepScaleR子集所获得的表现相匹配(MATH500:73.6%,平均值:35.9%)。类似的显著改进在各种模型(Qwen2.5-Math-7B、Llama3.2-3B-Instruct、DeepSeek-R1-Distill-Qwen-1.5B)、强化学习算法(GRPO和PPO)以及不同的数学示例中均被观察到(其中许多示例作为单一训练样本时,在MATH500上带来了约30%或更高的改进)。此外,我们在1-shot RLVR过程中识别出一些有趣的现象,包括跨领域泛化、自我反思频率的增加,以及即使训练准确率已经饱和后,测试性能仍持续改善的现象,我们将其称为“后饱和泛化”。此外,我们验证了1-shot RLVR的有效性主要来源于策略梯度损失,这使其与“grokking”现象区分开来。我们还展示了促进探索(例如,通过添加具有适当系数的熵损失)在1-shot RLVR训练中的关键作用。作为额外发现,我们观察到仅应用熵损失(没有任何结果奖励)即可显著提升Qwen2.5-Math-1.5B在MATH500上的表现达27.4%。这些研究结果可以为未来关于RLVR数据效率的工作提供启发,并鼓励重新审视RLVR领域的最新进展及其潜在机制。我们的代码、模型和数据已在以下地址开源:https://github.com/ypwang61/One-Shot-RLVR。
- 图表
- 解决问题该论文试图解决如何通过单一训练样例(1-shot RLVR)有效提升大型语言模型(LLMs)在数学推理任务上的表现。这是一个相对较新的问题,特别是在结合强化学习与可验证奖励机制的背景下。
- 关键思路关键思路是利用强化学习中的可验证奖励机制(RLVR),仅通过一个训练样例显著提升模型性能。相比传统方法需要大量数据或复杂微调,这篇论文提出的方法更加高效且数据节约。其核心在于通过策略梯度损失和探索增强(如熵损失)来优化模型行为,而不是依赖于大规模数据集或复杂的奖励函数设计。
- 其它亮点论文展示了使用单一训练样例即可大幅提升多个模型在不同数学基准测试上的表现,并揭示了‘后饱和泛化’现象,即即使训练准确率已经饱和,测试性能仍能持续改善。此外,研究还发现熵损失本身对性能有显著提升作用,而无需额外奖励信号。实验涉及多个模型(如Qwen2.5-Math-1.5B、Llama3.2-3B-Instruct等)、算法(PPO、GRPO)和数据集(MATH500等)。所有代码、模型和数据均已开源,为未来研究提供了良好的基础。
- 最近的相关研究包括:1) 探索少量样本学习(few-shot learning)在自然语言处理中的应用;2) 结合强化学习与大模型进行特定任务优化的研究,例如DeepMind的GopherCite项目;3) 关于‘grokking’现象的研究,探讨模型在训练后期突然获得某种能力的现象。相关论文如《Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets》和《Reinforcement Learning with Human Feedback from Comparison Data》。
沙发等你来抢
去评论
评论
沙发等你来抢