Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

2025年03月31日
  • 简介
    我们推出了 Open-Reasoner-Zero,这是首个开源的大规模推理导向的强化学习训练实现,专注于可扩展性、简洁性和易用性。通过广泛的实验,我们证明了一种极简主义方法——使用经典的 PPO 算法结合 GAE(其中 $\lambda=1$, $\gamma=1$),以及简单的基于规则的奖励函数,无需任何 KL 正则化,就足以同时提升响应长度和基准性能,这一现象与在 DeepSeek-R1-Zero 中观察到的结果类似。使用与 DeepSeek-R1-Zero-Qwen-32B 相同的基础模型,我们的实现不仅在 AIME2024、MATH500 和 GPQA Diamond 基准测试中表现出更优的性能,还展现了显著的效率优势——仅需 DeepSeek-R1-Zero 流程十分之一的训练步数。秉承开源精神,我们公开了各种规模模型的源代码、参数设置、训练数据及模型权重。
  • 图表
  • 解决问题
    该论文试图解决如何通过强化学习(RL)训练大规模语言模型以提升其推理能力的问题。具体来说,它关注如何在不依赖复杂正则化或额外技术的情况下,通过简单而高效的训练方法提高模型在数学推理和常识问答等任务上的表现。这是一个具有挑战性但并非全新的问题,因为已有研究如DeepSeek-R1-Zero也在探索类似方向。
  • 关键思路
    论文的关键思路是采用极简主义的训练策略:使用标准PPO算法(带有GAE,且设置λ=1和γ=1),结合规则驱动的奖励函数,而不依赖KL正则化或其他复杂的机制。这种方法不仅简化了训练流程,还显著提高了模型性能,并大幅减少了所需的训练步骤。与当前领域中普遍追求复杂优化技术的趋势相比,这种回归基础的方法是一种创新尝试。
  • 其它亮点
    论文展示了以下亮点:1)在AIME2024、MATH500和GPQA Diamond等多个基准测试中取得了优于DeepSeek-R1-Zero的表现;2)仅需十分之一的训练步骤即可达到甚至超越现有方法的效果;3)开源了完整的代码、参数配置、训练数据以及不同规模的模型权重,极大地促进了社区的研究进展;4)实验设计清晰合理,验证了极简训练策略的有效性和可扩展性。未来可以进一步研究如何将这种方法应用于更多类型的任务和更大规模的数据集。
  • 相关研究
    近期相关研究包括:1)DeepSeek团队提出的DeepSeek-R1-Zero,同样专注于通过强化学习改进语言模型的推理能力;2)Alpaca系列模型的研究,探索了指令微调和奖励建模的不同组合;3)斯坦福大学发布的LIMA模型,强调轻量级训练方案对大模型性能的影响;4)Google的Minerva项目,致力于提升语言模型在科学和数学领域的推理能力。这些工作共同推动了大型语言模型在复杂任务上的进步。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论