ReAct Meets ActRe: Autonomous Annotation of Agent Trajectories for Contrastive Self-Training

2024年03月21日
  • 简介
    语言代理通过与基础模型推理来展示自主决策能力。最近,人们开始努力训练语言代理以提高其性能,使用多步推理和动作轨迹作为训练数据。然而,收集这样的轨迹仍需要相当大的人力,通过人工注释或实现各种提示框架来完成。在这项工作中,我们提出了A$^3$T框架,以ReAct风格实现代理轨迹的自主注释。中心角色是ActRe提示代理,它解释任意动作的原因。当随机抽样外部动作时,ReAct风格代理可以查询ActRe代理以获取其文本理由。然后,通过在抽样动作之前添加ActRe的后验推理,合成新的轨迹。这样,ReAct风格代理执行多个失败任务的轨迹,并选择成功的轨迹来补充其失败的轨迹,以进行对比自我训练。通过二元化奖励的策略梯度方法实现,使用累积轨迹的对比自我训练促进了语言代理多轮自我提高的闭环。我们使用开源的Mistral-7B-Instruct-v0.2进行QLoRA微调的实验。在AlfWorld中,使用A$^3$T训练的代理获得了96%的1-shot成功率,并在4个迭代轮次中实现了100%的成功率。在WebShop中,A$^3$T代理的1-shot表现与人类平均水平相当,经过4轮迭代改进后,其表现接近于人类专家。A$^3$T代理明显优于现有技术,包括使用GPT-4,高级代理框架和完全微调LLMs进行提示。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在提出一种名为A$^3$T的框架,以实现自主注释代理轨迹的自我训练,从而提高语言代理的性能。
  • 关键思路
    A$^3$T框架的核心是ActRe提示代理,它可以解释任意动作的原因,并将其与ReAct风格的代理结合使用,生成新的轨迹。通过反复自我训练,A$^3$T代理可以显著提高其性能。
  • 其它亮点
    论文使用QLoRA细调和开源的Mistral-7B-Instruct-v0.2数据集进行实验。在AlfWorld数据集上,A$^3$T代理的1-shot成功率为96%,4轮迭代后成功率为100%。在WebShop数据集上,A$^3$T代理的1-shot表现与人类平均水平相当,4轮迭代后表现接近人类专家水平。A$^3$T代理明显优于使用GPT-4提示、高级代理框架和完全细调LLMs的现有技术。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如“Reinforcement Learning with Augmented Data”和“Self-Supervised Learning for Multimodal Representations”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问