Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

向作者提问

NEW

简介

大型语言模型（LLMs）代理在交互环境中处理复杂任务中越来越重要。现有的研究主要集中在通过行为克隆更强的专家来提高性能，但这些方法在实际应用中往往表现不佳，主要是因为它们无法从错误中恢复。然而，收集步骤级别的批评数据既困难又昂贵。因此，自动化和动态构建自我批评数据集对于赋予模型智能代理能力至关重要。在这项工作中，我们提出了一种迭代自训练框架——Agent-R，使语言代理能够在运行时进行反思。与传统方法不同，后者根据正确性奖励或惩罚动作，而Agent-R利用蒙特卡洛树搜索（MCTS）来构建训练数据，从而从错误的轨迹中恢复正确的轨迹。代理反思的一个关键挑战在于需要及时修正错误，而不是等到一次运行结束。为了解决这个问题，我们引入了一种模型引导的批评构建机制：行动者模型在其当前能力范围内识别失败轨迹中的第一个错误步骤。从这个错误步骤开始，我们将它与相邻的正确路径拼接在一起，这些路径在树中共享同一个父节点。这种策略使模型能够基于其当前策略学习反思，从而提高了学习效率。为了进一步探索这种自我改进范式的可扩展性，我们研究了错误纠正能力和数据集构建的迭代改进。我们的研究结果表明，Agent-R持续提升了模型从错误中恢复的能力，并实现了及时的错误纠正。在三个交互环境中的实验表明，Agent-R有效地使代理能够纠正错误动作，同时避免循环，相比基线方法实现了更优的性能（+5.59%）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决大型语言模型（LLMs）在复杂交互环境中执行任务时，由于无法从错误中恢复而导致的性能问题。这是一个重要且具有挑战性的问题，特别是在实际应用中，因为传统的通过行为克隆方法增强性能的方式往往难以应对现实世界的动态性和不确定性。
关键思路

关键思路在于提出了一种迭代自我训练框架Agent-R，使语言代理能够实时反思并纠正错误。与传统方法不同，Agent-R利用蒙特卡洛树搜索（MCTS）自动构建从错误轨迹恢复到正确轨迹的训练数据，并引入了基于模型指导的批评构造机制，以识别失败轨迹中的首个错误步骤并及时修正。这种即时修正机制提高了学习效率，并使模型能够根据当前策略进行改进。
其它亮点

实验设计包括三个交互环境，展示了Agent-R能够在避免循环的同时有效纠正错误动作，相较于基线方法实现了+5.59%的性能提升。研究还探讨了错误纠正能力和数据集构建的迭代优化。值得注意的是，这项工作强调了自动化和动态构建自批评数据集的重要性，这为未来的研究提供了新的方向。目前尚未提及代码开源情况。
相关研究

最近在这个领域中，相关研究还包括：1. 使用强化学习提高代理决策能力；2. 通过模仿学习改进代理行为；3. 结合自然语言处理技术增强代理理解和生成能力。一些相关的研究论文标题如《通过深度强化学习改进互动代理》、《模仿学习中的专家示范整合》、《自然语言处理在代理系统中的应用进展》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问