- 简介最近的研究表明,大型语言模型(LLMs)在零样本或少样本情况下,仅通过自然语言指令作为提示,已经展示了在新环境中作为代理进行有效导航和执行操作的能力。最近的研究还表明,LLMs具有通过自我改进即在模型自身生成的数据上进行微调来超越其基本性能的能力。在这项工作中,我们探索了LLMs在使用WebArena基准测试中作为代理在复杂环境中完成长期任务时自我改进性能的程度。在WebArena中,代理必须自主地在网页上导航并执行操作以实现指定的目标。我们探索了在三种不同的合成训练数据混合物上进行微调,并通过自我改进程序在WebArena基准测试上实现了任务完成率的31%的提高。我们还为评估我们微调的代理模型的性能、鲁棒性、能力和轨迹质量贡献了新的评估指标,这些指标比目前用于衡量自我改进的简单聚合级别基准分数更具度量性。
-
- 图表
- 解决问题本论文旨在探索使用大型语言模型(LLMs)自我改进其在复杂环境中作为代理的表现,以及在WebArena基准测试中完成长期任务的能力。
- 关键思路通过自我改进的过程,使用三种不同的合成训练数据混合物进行微调,使代理模型在WebArena基准测试中的任务完成率提高了31%。
- 其它亮点论文提出了用于评估代理模型性能、鲁棒性、能力和轨迹质量的新型评估指标。使用WebArena基准测试进行实验,并开源了代码。
- 与该论文相关的研究包括使用大型语言模型进行自我改进的其他工作,以及在复杂环境中训练代理模型的其他方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流