Demystifying Reinforcement Learning in Agentic Reasoning

向作者提问

NEW

简介

最近，基于智能体的强化学习（agentic RL）的出现表明，强化学习同样能够有效提升大语言模型（LLMs）的智能体式推理能力，但其中关键的设计原则和最佳实践仍不明确。在本研究中，我们从数据、算法和推理模式三个核心角度出发，对强化学习在智能体式推理中的应用进行了全面而系统的探究。我们总结出以下关键发现：（i）用真实的端到端工具使用轨迹替代拼接的合成轨迹，可获得更强的监督微调（SFT）初始化效果；高多样性且模型感知的数据集有助于维持探索能力，并显著提升强化学习的表现。（ii）对探索友好的技术在智能体式强化学习中至关重要，例如采用更高的裁剪阈值（clip higher）、过长奖励塑形（overlong reward shaping），以及保持足够的策略熵，均能提升训练效率。（iii）一种审慎决策的策略——即减少工具调用次数——优于频繁调用工具或冗长的自我推理，不仅提高了工具使用效率，也提升了最终的准确率。这些简单而有效的实践方法一致地增强了智能体式推理能力和训练效率，即使在较小规模的模型上也能在具有挑战性的基准测试中取得优异表现，为未来的智能体式强化学习研究建立了实用的基线。除了这些实证发现外，我们还贡献了一个高质量的真实端到端智能体式SFT数据集，以及一个高质量的强化学习数据集，并在四个极具挑战性的基准测试（包括AIME2024/AIME2025、GPQA-Diamond和LiveCodeBench-v6）上验证了我们方法在提升大语言模型智能体式推理能力方面的有效性。通过我们的方法，仅40亿参数规模的模型即可超越320亿参数模型的智能体式推理性能。代码与模型地址：https://github.com/Gen-Verse/Open-AgentRL
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决如何有效利用强化学习（RL）提升大语言模型（LLMs）在代理式推理（agentic reasoning）中的能力，尤其是在工具使用、探索效率和推理策略方面的关键设计原则不明确的问题。尽管已有研究将RL应用于智能体行为优化，但如何系统化地提升LLM的端到端工具调用与决策能力仍是一个较新的开放问题。
关键思路

从数据、算法和推理模式三个维度系统化分析并优化agentic RL：1）使用真实端到端工具使用轨迹替代合成拼接轨迹以获得更强的SFT初始化；2）引入鼓励探索的技术如clip higher、过长奖励塑造和保持策略熵；3）采用深思熟虑（deliberative）的推理策略，减少冗余工具调用和过度自推理。这些简单而有效的实践显著提升了小模型的代理性能。
其它亮点

作者构建了一个高质量的真实端到端SFT和RL数据集，并在AIME2024/AIME2025、GPQA-Diamond、LiveCodeBench-v6等多个高难度基准上验证了方法的有效性。实验表明，经过优化的4B模型可超越未经优化的32B模型的表现。代码与模型已开源（https://github.com/Gen-Verse/Open-AgentRL），为后续研究提供了实用基线和可复现框架。值得深入的方向包括探索更高效的推理调度机制、动态奖励建模以及跨任务泛化能力。
相关研究

1. 'Reinforced Self-Training (ReST) for Language Models' by Peng et al., 2023 2. 'Large Language Models as Agents' by Yang et al., 2023 3. 'Reflexion: Language Agents with Verbal Reinforcement Learning' by Shinn et al., 2023 4. 'Toolformer: Language Models Can Teach Themselves to Use Tools' by Schick et al., 2023 5. 'Agentic AI: From Reactive to Proactive Language Agents' by Google DeepMind, 2024

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问