- 简介语言代理通过与基础模型推理展示了自主决策的能力。最近,人们开始尝试通过多步推理和行动轨迹的训练数据来提高语言代理的性能。然而,收集这样的轨迹仍然需要相当大的人力,无论是通过人工注释还是实施多样的提示框架。在本文中,我们提出了A$^3$T框架,它可以以ReAct的风格自主注释代理轨迹。中心角色是一个ActRe提示代理,它解释任意行动的原因。当随机抽样外部行动时,ReAct风格的代理可以查询ActRe代理以获取其文本理由。然后通过将ActRe的后验推理前置到抽样行动中来合成新的轨迹。通过这种方式,ReAct风格的代理对于失败的任务执行多个轨迹,并选择成功的轨迹来补充其失败的轨迹进行对比自我训练。通过二元化奖励的策略梯度方法实现,通过累积轨迹的对比自我训练促进了多轮语言代理自我改进的闭环。我们使用开源的Mistral-7B-Instruct-v0.2进行QLoRA微调来进行实验。在AlfWorld中,使用A$^3$T训练的代理获得了96%的1-shot成功率,并在4轮迭代中实现了100%的成功率。在WebShop中,A$^3$T代理的1-shot性能与人类平均水平相当,并且4轮迭代的改进使性能接近人类专家水平。A$^3$T代理显著优于现有技术,包括GPT-4提示、高级代理框架和完全微调的LLMs。
-
- 图表
- 解决问题论文提出了A$^3$T框架,旨在解决多步推理和行动轨迹数据收集的问题,通过自主注释代理轨迹来训练语言代理,从而提高其性能。
- 关键思路A$^3$T框架通过ActRe提示代理和ReAct提示代理相互配合,实现自主注释代理轨迹的训练,通过对比自我训练来不断提高语言代理的性能。
- 其它亮点论文使用QLoRA fine-tuning和开源的Mistral-7B-Instruct-v0.2数据集进行实验,A$^3$T框架在AlfWorld和WebShop数据集上均表现出色,超过了GPT-4、高级代理框架和完全微调LLMs等现有技术。此外,论文还开源了代码和数据集。
- 近期相关研究包括《Reinforcement Learning with Augmented Data》、《Learning to Learn from Weak Supervision by Full Supervision》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流