AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

2025年09月10日
  • 简介
    开发能够做出一系列智能决策以解决复杂现实任务的自主大语言模型(LLM)代理,是当前快速发展的前沿领域。与人类认知发展类似,这类代理应通过探索和与环境互动来获取知识和技能。尽管已有一定进展,但社区仍缺乏一个统一且交互性强的强化学习(RL)框架,能够从零开始有效训练这类代理,而无需依赖监督式微调(SFT),并适用于多样化和贴近现实的环境。为弥补这一差距,我们提出了 AgentGym-RL,这是一个通过强化学习训练多轮交互决策的 LLM 代理新框架。该框架采用模块化和解耦架构,具有高度灵活性和可扩展性。它涵盖了多种现实场景,并支持主流强化学习算法。此外,我们提出了 ScalingInter-RL,这是一种专为平衡探索与利用、实现稳定强化学习优化而设计的训练方法。在训练初期,它通过限制交互次数强调利用已有策略;随着训练推进,逐步转向更大视野的探索,以鼓励形成多样化的解决问题策略。这种方式使代理发展出更加多样化的策略行为,在面对长视野任务时也不易崩溃。我们进行了大量实验,验证了 AgentGym-RL 框架和 ScalingInter-RL 方法在训练稳定性和有效性方面的优势。我们的代理在多种环境下的 27 项任务中表现达到或超过了商业模型。我们分享了关键洞察,并将开源完整的 AgentGym-RL 框架,包括代码和数据集,以支持研究社区开发下一代智能代理技术。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决如何从零开始训练具备多轮交互决策能力的自主LLM代理(智能体)的问题,而无需依赖监督微调(SFT),并提出一个统一且可交互的强化学习(RL)框架。这是一个新兴且快速发展的研究领域,旨在模拟人类认知发展,使代理通过探索和环境互动来获取知识和技能。
  • 关键思路
    论文提出了AgentGym-RL,一个模块化、解耦的强化学习框架,用于训练LLM代理在多样化真实场景中进行多轮交互决策。同时提出了一种新的训练方法ScalingInter-RL,通过在训练初期强调利用(exploitation),随后逐步转向探索(exploration),从而实现探索与利用的平衡,并提升长视野任务下的稳定性。相比现有方法,该思路强调端到端的强化学习训练,无需预训练微调,具有更高的灵活性和可扩展性。
  • 其它亮点
    1. AgentGym-RL框架具备高度模块化和可扩展性,支持主流RL算法。 2. ScalingInter-RL方法通过动态调整交互策略,有效解决长视野任务中的策略崩溃问题。 3. 实验验证了框架和方法在27个跨领域任务上的有效性,性能媲美甚至超越商业模型。 4. 作者承诺开源完整的框架代码和数据集,推动后续研究。
  • 相关研究
    1. DeepMind的AlphaStar:基于强化学习的星际争霸游戏智能体。 2. OpenAI的Gym和RLlib:通用强化学习基准与工具。 3. Meta的Model-Based Reinforcement Learning for Dialogue Systems。 4. Google的DreamerV3:用于复杂环境的模型基强化学习。 5. 近期LLM与强化学习结合的研究,如“Reinforcement Learning from Human Feedback (RLHF)”相关工作。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问