rStar2-Agent: Agentic Reasoning Technical Report

2025年08月28日
  • 简介
    我们推出了 rStar2-Agent,这是一款拥有140亿参数的数学推理模型,通过基于智能体的强化学习进行训练,以实现前沿级别的性能。除了超越当前的长链思维链(CoT)能力之外,该模型还展现出高级的认知行为,例如在使用Python代码工具之前进行深思熟虑,并根据代码执行反馈进行反思,从而在复杂问题求解过程中自主探索、验证和优化中间步骤。这一能力得益于三项关键创新,使得基于智能体的强化学习在大规模训练中变得高效:(i)一种高效的强化学习基础设施,配备可靠的Python代码执行环境,支持高吞吐量运行并降低高昂的 rollout(轨迹生成)成本,使得在有限的GPU资源(64块MI300X GPU)上训练成为可能;(ii)GRPO-RoC,一种基于智能体的强化学习算法,采用“正确时重采样”(Resample-on-Correct)的 rollout 策略,有效应对来自代码工具的固有环境噪声,使模型能够在代码环境中更有效地推理;(iii)一种高效的智能体训练方案,从非推理阶段的监督微调(SFT)开始,逐步过渡到多阶段的强化学习,以最小的计算成本培养出高级认知能力。最终,rStar2-Agent 仅用一周时间、510步强化学习训练,就将一个预训练的140亿参数模型提升至当前最优水平,在 AIME24 和 AIME25 上分别实现了平均 80.6% 和 69.8% 的 pass@1 分数,显著超越了 DeepSeek-R1(6710亿参数),同时生成的回答更简短。除数学领域外,rStar2-Agent-14B 还在对齐能力、科学推理以及智能体工具使用任务方面展现出强大的泛化能力。代码和训练方案已开源,地址为 https://github.com/microsoft/rStar。
  • 图表
  • 解决问题
    论文旨在解决复杂数学推理任务中当前模型表现不足的问题,尝试验证通过基于代理的强化学习训练大规模模型,可以显著提升其在数学推理、工具使用以及多步问题解决中的表现。这是一个相对较新的问题,因为尽管已有部分模型尝试长链推理,但如何有效结合代码工具和自主推理仍然在探索阶段。
  • 关键思路
    论文的核心思路是通过一种创新的代理式强化学习(agentic RL)方法,训练一个14B参数的模型在数学推理任务中展现出高级认知行为,如在使用Python工具前进行深思熟虑、根据代码执行反馈进行反思和调整。这种方法结合了高效的RL基础设施、GRPO-RoC算法(应对代码环境噪声)以及分阶段的训练策略,相比传统长链推理方法更具系统性和可操作性。
  • 其它亮点
    1. 在AIME24和AIME25数据集上分别达到80.6%和69.8%的pass@1得分,超越了DeepSeek-R1(671B)模型,且响应更短。 2. 模型不仅在数学领域表现优异,还展示了在对齐、科学推理和工具使用任务中的强泛化能力。 3. 论文开源了代码和训练方案,训练仅使用64块MI300X GPU,一周内完成510个RL训练步骤,表明其训练效率较高。 4. 训练流程从非推理SFT开始,逐步过渡到多阶段RL,降低了计算成本并提升了模型的自主决策能力。
  • 相关研究
    1. DeepSeek-R1: A Large Language Model for Multi-Step Mathematical Reasoning 2. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (CoT) 3. AlphaGeometry: A language model for geometry problems with symbolic and diagrammatic reasoning 4. Toolformer: Language Models Can Teach Themselves to Use Tools 5. Reinforcement Learning from Human Feedback (RLHF) in Language Models: Progress and Challenges
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论