Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

论文摘要:最近几个月出现了一种强大的新趋势,即将大型语言模型(LLM)增强为自主语言代理,能够执行自己的目标导向多步任务,而不仅仅是响应人类用户的查询。然而,大多数现有的语言代理并没有使用特定于环境的奖励进行优化。虽然有些代理通过口头反馈实现迭代改进,但它们不能以与基于梯度的奖励学习兼容的方式进行推理和规划。本文介绍了一种原则性框架,通过学习回顾模型来加强大型语言代理,该模型通过策略梯度自动调整语言代理提示,以从环境反馈中获得奖励。具体而言,我们提出的代理架构从多个环境和任务的奖励中学习,用于微调预训练的语言模型,该模型通过总结之前失败尝试的根本原因并提出行动计划来完善语言代理提示。各种任务的实验结果表明,语言代理随着时间的推移而改进,我们的方法明显优于未能充分利用来自环境梯度的基准方法。这表明使用策略梯度优化改善语言代理似乎很有前途,我们认为这是首批这样做的工作之一,并可以应用于优化代理架构中的其他模型,以增强代理绩效。

内容中包含的图片若涉及版权问题,请及时与我们联系删除