Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning

2025年09月29日
  • 简介
    尽管大语言模型(LLM)在预训练阶段的扩展规律已得到广泛研究,但其在强化学习(RL)后训练阶段的行为仍鲜有探索。本文对基于强化学习的后训练过程中的扩展行为进行了系统的实证研究,特别聚焦于数学推理能力。通过对不同模型规模和训练设置下的54组实验,我们刻画了模型规模、数据量和计算预算之间如何相互作用并影响性能表现。我们的分析得出四个关键发现:(1)在计算预算固定的情况下,训练步数较少的大模型始终优于训练步数较多的小模型;(2)在训练数据量固定的前提下,更大的模型具有更高的样本效率,能够实现更低的损失值;(3)在数据受限的情况下,重复使用高质量数据被证明极为有效,因为最终性能主要取决于优化步数的总量,而非样本的唯一性;(4)这些扩展规律在基础模型和经过指令微调的模型上均表现出稳健性,两类模型虽在绝对准确率上存在差异,但展现出相似的学习动态(例如大模型收敛更快)。综上所述,这些结果为通过强化学习后训练高效扩展大语言模型的推理能力提供了理论依据和实用指导。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在大语言模型(LLMs)经过强化学习(RL)后训练阶段的缩放规律不明确的问题,特别是数学推理能力在不同模型规模、数据量和计算预算下的表现。这在当前研究中仍属较新的问题,因为已有工作主要集中在预训练阶段的缩放定律,而对RL后训练阶段的系统性分析较为缺乏。
  • 关键思路
    通过54组跨模型规模与训练设置的实验,系统地研究了强化学习后训练中的缩放行为。关键思路是揭示在固定计算预算或数据量下,更大模型即使训练步数更少也能超越小模型,并强调优化步数和数据重用比数据多样性更重要。这一发现挑战了传统认为需要大量多样化数据的假设,为高效推理能力扩展提供了新视角。
  • 其它亮点
    实验设计严谨,覆盖多种模型尺寸和训练条件;使用数学推理任务作为评估基准,可能涉及如MATH等数据集;发现大模型在样本效率和收敛速度上显著优于小模型;高质数据重复使用在数据受限场景下极为有效;结果在基础模型和指令微调模型上具有一致性;未提及代码是否开源,但其系统性实证方法为后续研究提供了可复现的框架;值得深入探索不同任务领域(如代码生成、逻辑推理)中的RL缩放规律。
  • 相关研究
    1. Scaling Laws for Neural Language Models 2. Training Compute-Optimal Large Language Models (Chinchilla) 3. Large Language Models as Optimizers 4. Self-Taught Reasoner: Learning to Reason from Its Own Mistakes 5. Improving Mathematical Reasoning with Reinforcement Learning
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问