ReAct Meets ActRe: Autonomous Annotations of Agent Trajectories for Contrastive Self-Training

2024年03月21日
  • 简介
    语言代理已经通过基础模型的推理展示了自主决策的能力。最近,人们开始努力训练语言代理以提高其性能,使用多步推理和动作轨迹作为训练数据。然而,收集这样的轨迹仍然需要相当大的人力,要么通过人工注释,要么通过实现各种提示框架来完成。在这项工作中,我们提出了A$^3$T,这是一个框架,可以使代理轨迹的自主注释以ReAct的方式进行。中心作用是一个ActRe提示代理,它解释任意动作的原因。当随机抽样外部动作时,ReAct风格的代理可以向ActRe代理查询该动作以获取其文本理由。然后,通过在抽样动作前加入ActRe的后续推理,生成新的轨迹。通过这种方式,ReAct风格的代理为失败的任务执行多个轨迹,并选择成功的轨迹来补充其失败的轨迹,以进行对比自我训练。通过二元化奖励的策略梯度方法实现,累积轨迹的对比自我训练促进了多轮语言代理自我改进的闭环。我们使用开源的Mistral-7B-Instruct-v0.2进行QLoRA微调进行实验。在AlfWorld中,使用A$^3$T训练的代理获得了96%的一次成功率,并在4轮迭代中实现了100%的成功率。在WebShop中,A$^3$T代理的一次性性能与人类平均水平相当,而4轮迭代的优化使其性能接近人类专家水平。A$^3$T代理显著优于现有技术,包括使用GPT-4进行提示、高级代理框架和完全微调的LLMs。
  • 图表
  • 解决问题
    本论文旨在提出一种自主注释代理轨迹的框架A$^3$T,以解决多步推理和行动轨迹的数据收集问题。
  • 关键思路
    A$^3$T框架通过ActRe提示代理和ReAct提示代理的组合,实现了自主注释代理轨迹。该框架通过对失败任务的多个轨迹进行对比自我训练,以提高语言代理的性能。
  • 其它亮点
    该论文的实验使用了QLoRA fine-tuning和开源的Mistral-7B-Instruct-v0.2数据集,并在AlfWorld和WebShop两个任务中进行了测试。实验结果表明,使用A$^3$T框架训练的代理在1-shot任务成功率和迭代训练后的性能都优于其他技术,包括GPT-4提示、先进的代理框架和完全微调的LLMs。
  • 相关研究
    与本论文相关的研究包括:《ReAct: Self-Supervised Reactive Agent Trajectory Generation》、《Learning to Learn from Failure: Autonomous Retrospective by Successor Features for Robot Manipulation》、《Learning to Learn from Failure: A Survey of Deep Reinforcement Learning Retrospective Experience Replay》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论