A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

2025年10月01日
  • 简介
    我们研究了通过多轮强化学习将大语言模型训练为智能体时,哪些方法真正有效,哪些则不然。尽管该领域进展迅速,但现有的框架和定义仍较为零散,缺乏对跨任务关键设计选择的系统性梳理与分析。为弥补这一不足,我们首先将设计空间分解为三个相互关联的核心要素——环境、奖励和策略,并通过实验得出在情境化文本领域中训练大语言模型智能体的一套有效方案。具体而言,我们测试了TextWorld和ALFWorld这两个常用于评估具身推理能力的情境化任务环境,以及面向软件工程类任务的SWE-Gym。(i)在环境方面,我们分析了任务复杂性的影响,包括状态空间和动作空间的规模以及最优解长度,发现即使是在某一领域内的简单环境,也能有效反映智能体向更复杂任务泛化的潜力。(ii)在奖励方面,我们对相对奖励稀疏性进行了消融实验,观察到虽然密集的回合级奖励能加快训练速度,但最终性能和训练稳定性高度依赖于强化学习算法的选择。(iii)在智能体策略方面,我们探讨了奖励稀疏性与有偏策略梯度方法(如PPO、GRPO)和无偏方法(如RLOO)之间的相互作用,并展示了在给定固定预算的情况下,如何确定监督微调(SFT)与强化学习训练之间的最优比例。我们将这些发现提炼为一套训练方案,指导上述三大要素的协同设计,从而推动多轮交互式智能体强化学习的研究与实际应用。代码地址:https://github.com/pearls-lab/meow-tea-taro
  • 作者讲解
  • 图表
  • 解决问题
    论文试图系统性地解决当前大语言模型作为智能体在多轮强化学习训练中缺乏统一框架和清晰设计原则的问题。现有研究在环境、奖励和策略设计上碎片化,缺乏对哪些设计选择在不同任务中真正有效的系统分析。这是一个重要且相对较新的问题,尤其是在LLM智能体迈向复杂现实应用场景的背景下。
  • 关键思路
    将LLM智能体的训练设计空间分解为三个相互关联的支柱:环境、奖励和策略,并通过跨多个任务域的实证研究,提炼出一个可复用的训练配方。相比以往孤立优化某一模块的工作,该论文强调三者之间的协同设计(co-design),并提出了在固定预算下SFT与RL训练的最优比例等具体指导原则。
  • 其它亮点
    实验设计覆盖了TextWorld、ALFWorld和SWE-Gym三个具有代表性的文本型任务环境,评估了任务复杂度、奖励稀疏性、RL算法选择(如PPO、GRPO、RLOO)等因素的影响。发现简单环境可预测复杂任务泛化能力,密集奖励虽加速训练但稳定性依赖算法选择。论文开源了代码(https://github.com/pearls-lab/meow-tea-taro),为后续研究提供了可复现基础。值得深入的方向包括将该配方扩展到视觉-语言或多模态智能体,以及探索更高效的奖励建模方法。
  • 相关研究
    1. Reinforcement Learning with Large Language Models (2023) 2. PAL: Program-Aided Language Models (ICML 2023) 3. Reflexion: Language Agents with Verbal Reinforcement Learning (ICML 2023) 4. WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents (NeurIPS 2022) 5. Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents (ICML 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问