- 简介最近,大语言模型的强化学习研究呈现出日益复杂的趋势:多阶段训练流程、动态超参数调度以及课程学习策略等方法层出不穷。这引发了一个根本性问题:\textbf{这种复杂性是否真的必要?} 我们提出了 \textbf{JustRL},一种极简的方法,仅采用单阶段训练和固定超参数,却在两个15亿参数的推理模型上达到了当前最优的性能(在九项数学基准测试中平均准确率分别为54.9\%和64.3\%),且计算资源消耗仅为复杂方法的一半。相同的超参数无需调整即可直接迁移到两个不同模型上,训练过程在4000多个步骤中表现出平稳、单调的持续提升,从未出现通常促使干预措施的崩溃或停滞现象。尤为关键的是,消融实验表明,加入诸如显式长度惩罚和鲁棒验证器等“标准技巧”反而可能因抑制探索行为而导致性能下降。这些结果表明,当前领域中不断增加的复杂性,或许是在试图解决那些在一个稳定且充分扩展的基础方法下本就不会出现的问题。我们公开了模型和代码,旨在为社区建立一个简单且经过验证的基准方案。
-
- 图表
- 解决问题当前强化学习在大语言模型中的应用趋向于复杂的多阶段训练、动态超参数和课程学习策略,但这些复杂性是否必要尚不明确。论文试图验证:一个极简的单阶段固定超参数方法能否在数学推理任务上达到甚至超越复杂方法的性能,从而挑战‘复杂性必需’这一假设。这是一个重要且被忽视的问题,因为领域可能正在为本不存在的问题添加不必要的复杂性。
- 关键思路提出JustRL,一种极简的强化学习框架,采用单阶段训练和固定超参数,避免多阶段流程和动态调整。关键创新在于坚持稳定性与规模化,而非引入复杂机制。相比现有工作,其新意在于证明:通过稳定训练放大模型潜力,许多常见问题(如训练崩溃或平台期)自然消失,无需额外干预。
- 其它亮点在两个1.5B参数的推理模型上,JustRL分别取得54.9%和64.3%的九项数学基准平均准确率,达到SOTA水平,且计算量减少2倍。相同超参数无需调优即可跨模型迁移,训练过程在4000+步中保持平滑单调提升。消融实验显示,加入长度惩罚、强验证器等‘标准技巧’反而损害性能,可能抑制探索。作者已开源模型与代码,为社区提供简单可复现的基线,极具实用价值。
- 1. Scaling Reinforcement Learning from Human Feedback: Revisiting the Scaling Laws 2. Process Reward Models for Mathematical Reasoning 3. Self-Improvement through Large Language Model Feedback 4. Direct Preference Optimization: Your Language Model is Secretly a Reward Model 5. RAFT: Reward rAnked FineTuning for Human Language Generation
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流