- 简介我们展示了通用领域的自动评估器可以显著提高网络导航和设备控制代理的性能。我们尝试了多个评估模型,平衡了推理成本、设计模块化和准确性之间的权衡。我们在几个数字代理的流行基准测试中验证了这些模型的性能,发现它们与 oracle 评估指标之间的一致性在 74.4% 到 92.9% 之间。最后,我们使用这些评估器通过微调和推理时引导来提高现有代理的性能。在没有额外监督的情况下,我们在流行的 WebArena 基准测试上将最先进的性能提高了 29%,并在具有挑战性的领域转移场景中实现了 75% 的相对改进。
- 图表
- 解决问题本论文旨在探索如何通过域通用的自动评估器来提高网络导航和设备控制代理的性能。同时,论文也旨在验证这些评估器的有效性和准确性。
- 关键思路论文提出了多种评估模型,通过权衡推理成本、设计模块化和准确性来改进代理的性能。通过微调和推理时指导等方法,无需额外的监督,论文在WebArena基准测试中将现有代理的性能提高了29%,在具有挑战性的领域转移场景中实现了75%的相对改进。
- 其它亮点论文使用了多种数据集进行实验,验证了评估器的有效性和准确性,并通过微调和推理时指导等方法显著提高了代理的性能。此外,论文还探讨了评估器的设计和权衡,并提供了开源代码。
- 在这个领域中,还有一些相关的研究,例如“Learning to Navigate the Web”,“Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates”等。
沙发等你来抢
去评论
评论
沙发等你来抢