RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

2025年04月24日
  • 简介
    训练大型语言模型(LLMs)作为交互式智能体时,面临独特的挑战,包括长期决策制定和与随机环境反馈的交互。尽管强化学习(RL)在静态任务中取得了进展,但多轮次智能体的RL训练仍鲜有探索。我们提出了StarPO(状态-思考-行动-奖励策略优化),这是一种针对轨迹级智能体RL的通用框架,并引入了RAGEN,一个用于训练和评估LLM智能体的模块化系统。我们在三个理想化的环境中进行的研究揭示了三个核心发现。首先,我们的智能体RL训练展示了一种反复出现的“回声陷阱”模式,其中奖励方差骤降且梯度尖峰;我们通过StarPO-S解决了这一问题,这是一种具有轨迹过滤、批评者整合和分离裁剪的稳定变体。其次,我们发现RL rollout的塑造将从多样化的初始状态、中等交互粒度和更频繁的采样中受益。最后,我们表明,在没有细粒度、推理感知的奖励信号的情况下,智能体的推理能力很难通过多轮次RL显现出来,它们可能会表现出浅层策略或虚构的想法。代码和环境可在https://github.com/RAGEN-AI/RAGEN获取。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解决在训练大型语言模型(LLMs)作为交互式智能体时面临的挑战,包括长期决策和与随机环境反馈的交互。具体来说,它关注如何通过强化学习(RL)有效地训练多轮对话中的LLM智能体,这在现有研究中尚未充分探索。
  • 关键思路
    论文提出了一种名为StarPO(State-Thinking-Actions-Reward Policy Optimization)的通用框架,用于轨迹级别的智能体RL训练,并引入了RAGEN系统,这是一个模块化的平台,用于训练和评估LLM智能体。StarPO-S是StarPO的一个稳定变体,通过轨迹过滤、批评者整合和分离裁剪解决了‘Echo Trap’问题(即奖励方差骤降和梯度尖峰)。此外,论文强调了初始状态多样性、中等粒度交互和频繁采样的重要性。
  • 其它亮点
    1. 提出了StarPO-S来应对多轮RL训练中的‘Echo Trap’问题;2. 实验设计揭示了RL rollout优化的关键因素,如初始状态多样性、交互粒度和采样频率;3. 强调了细粒度、推理感知奖励信号的重要性,以避免浅层策略或幻觉思维的出现;4. 论文提供了开源代码和实验环境(https://github.com/RAGEN-AI/RAGEN),便于复现和进一步研究;5. 在三个风格化环境中进行了验证,为后续研究提供了明确方向。
  • 相关研究
    近期相关研究包括:1. ‘Fine-Tuning Language Models from Human Preferences’,探讨了基于人类偏好的RL奖励设计;2. ‘Proximal Policy Optimization Algorithms’,提出了PPO算法,广泛应用于连续控制任务;3. ‘Reinforcement Learning for Dialog Systems’,研究了对话系统的RL方法;4. ‘Reward Design in Long-Horizon Tasks’,专注于长时序任务中的奖励函数设计;5. ‘Emergent Reasoning in Multi-Turn Dialogue’,分析了多轮对话中推理能力的涌现。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问