RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

向作者提问

NEW

简介

训练大型语言模型（LLMs）作为交互式智能体时，面临独特的挑战，包括长期决策制定和与随机环境反馈的交互。尽管强化学习（RL）在静态任务中取得了进展，但多轮次智能体的RL训练仍鲜有探索。我们提出了StarPO（状态-思考-行动-奖励策略优化），这是一种针对轨迹级智能体RL的通用框架，并引入了RAGEN，一个用于训练和评估LLM智能体的模块化系统。我们在三个理想化的环境中进行的研究揭示了三个核心发现。首先，我们的智能体RL训练展示了一种反复出现的“回声陷阱”模式，其中奖励方差骤降且梯度尖峰；我们通过StarPO-S解决了这一问题，这是一种具有轨迹过滤、批评者整合和分离裁剪的稳定变体。其次，我们发现RL rollout的塑造将从多样化的初始状态、中等交互粒度和更频繁的采样中受益。最后，我们表明，在没有细粒度、推理感知的奖励信号的情况下，智能体的推理能力很难通过多轮次RL显现出来，它们可能会表现出浅层策略或虚构的想法。代码和环境可在https://github.com/RAGEN-AI/RAGEN获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决在训练大型语言模型（LLMs）作为交互式智能体时面临的挑战，包括长期决策和与随机环境反馈的交互。具体来说，它关注如何通过强化学习（RL）有效地训练多轮对话中的LLM智能体，这在现有研究中尚未充分探索。
关键思路

论文提出了一种名为StarPO（State-Thinking-Actions-Reward Policy Optimization）的通用框架，用于轨迹级别的智能体RL训练，并引入了RAGEN系统，这是一个模块化的平台，用于训练和评估LLM智能体。StarPO-S是StarPO的一个稳定变体，通过轨迹过滤、批评者整合和分离裁剪解决了‘Echo Trap’问题（即奖励方差骤降和梯度尖峰）。此外，论文强调了初始状态多样性、中等粒度交互和频繁采样的重要性。
其它亮点

1. 提出了StarPO-S来应对多轮RL训练中的‘Echo Trap’问题；2. 实验设计揭示了RL rollout优化的关键因素，如初始状态多样性、交互粒度和采样频率；3. 强调了细粒度、推理感知奖励信号的重要性，以避免浅层策略或幻觉思维的出现；4. 论文提供了开源代码和实验环境（https://github.com/RAGEN-AI/RAGEN），便于复现和进一步研究；5. 在三个风格化环境中进行了验证，为后续研究提供了明确方向。
相关研究

近期相关研究包括：1. ‘Fine-Tuning Language Models from Human Preferences’，探讨了基于人类偏好的RL奖励设计；2. ‘Proximal Policy Optimization Algorithms’，提出了PPO算法，广泛应用于连续控制任务；3. ‘Reinforcement Learning for Dialog Systems’，研究了对话系统的RL方法；4. ‘Reward Design in Long-Horizon Tasks’，专注于长时序任务中的奖励函数设计；5. ‘Emergent Reasoning in Multi-Turn Dialogue’，分析了多轮对话中推理能力的涌现。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问