ReAct Meets ActRe: Autonomous Annotation of Agent Trajectories for Contrastive Self-Training

向作者提问

NEW

简介

语言代理通过与基础模型推理来展示自主决策能力。最近，人们开始努力训练语言代理以提高其性能，使用多步推理和动作轨迹作为训练数据。然而，收集这样的轨迹仍需要相当大的人力，通过人工注释或实现各种提示框架来完成。在这项工作中，我们提出了A$^3$T框架，以ReAct风格实现代理轨迹的自主注释。中心角色是ActRe提示代理，它解释任意动作的原因。当随机抽样外部动作时，ReAct风格代理可以查询ActRe代理以获取其文本理由。然后，通过在抽样动作之前添加ActRe的后验推理，合成新的轨迹。这样，ReAct风格代理执行多个失败任务的轨迹，并选择成功的轨迹来补充其失败的轨迹，以进行对比自我训练。通过二元化奖励的策略梯度方法实现，使用累积轨迹的对比自我训练促进了语言代理多轮自我提高的闭环。我们使用开源的Mistral-7B-Instruct-v0.2进行QLoRA微调的实验。在AlfWorld中，使用A$^3$T训练的代理获得了96%的1-shot成功率，并在4个迭代轮次中实现了100%的成功率。在WebShop中，A$^3$T代理的1-shot表现与人类平均水平相当，经过4轮迭代改进后，其表现接近于人类专家。A$^3$T代理明显优于现有技术，包括使用GPT-4，高级代理框架和完全微调LLMs进行提示。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种名为A$^3$T的框架，以实现自主注释代理轨迹的自我训练，从而提高语言代理的性能。
关键思路

A$^3$T框架的核心是ActRe提示代理，它可以解释任意动作的原因，并将其与ReAct风格的代理结合使用，生成新的轨迹。通过反复自我训练，A$^3$T代理可以显著提高其性能。
其它亮点

论文使用QLoRA细调和开源的Mistral-7B-Instruct-v0.2数据集进行实验。在AlfWorld数据集上，A$^3$T代理的1-shot成功率为96％，4轮迭代后成功率为100％。在WebShop数据集上，A$^3$T代理的1-shot表现与人类平均水平相当，4轮迭代后表现接近人类专家水平。A$^3$T代理明显优于使用GPT-4提示、高级代理框架和完全细调LLMs的现有技术。
相关研究

最近在这个领域中，还有一些相关的研究，例如“Reinforcement Learning with Augmented Data”和“Self-Supervised Learning for Multimodal Representations”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问