- 简介能够在网络上进行计划、推理和执行动作的自主代理人为自动化计算机任务开辟了一个有前途的途径。然而,现有的大多数基准测试主要关注基于文本的代理人,忽略了许多需要视觉信息才能有效解决的自然任务。鉴于大多数计算机界面都是针对人类感知的,视觉信息通常以文本数据难以有效利用的方式增强了文本数据。为了弥合这一差距,我们介绍了VisualWebArena,这是一个基准测试,旨在评估多模态网络代理人在现实的基于视觉的任务上的表现。VisualWebArena包括一组多样化且复杂的基于网络的任务,评估了自主多模态代理人的各种能力。为了在这个基准测试中表现出色,代理人需要准确地处理图像-文本输入,解释自然语言指令,并在网站上执行操作,以实现用户定义的目标。我们对最先进的基于LLM的自主代理人进行了广泛评估,包括几种多模态模型。通过广泛的定量和定性分析,我们确定了纯文本LLM代理人的几个限制,并揭示了最先进的多模态语言代理人能力上的差距。VisualWebArena提供了一个评估多模态自主语言代理人的框架,并为构建更强大的网络自主代理人提供了见解。我们的代码、基线模型和数据可在https://jykoh.com/vwa上公开获取。
- 图表
- 解决问题论文旨在解决基于文本的自主代理在处理需要视觉信息的任务时的不足之处,提出了一个新的基于视觉信息的多模态自主代理评估基准。
- 关键思路论文提出了VisualWebArena,这是一个评估多模态自主代理在处理现实世界中的网页任务时性能的基准。该基准包括一系列复杂的基于网页的任务,要求代理能够准确处理图像文本输入,解释自然语言指令,并在网站上执行操作以完成用户定义的目标。
- 其它亮点论文通过对当前最先进的LLM自主代理以及多模态模型进行广泛的定量和定性分析,发现了基于文本的LLM自主代理的一些局限性,并揭示了最先进的多模态语言代理的能力差距。VisualWebArena提供了一个评估多模态自主语言代理的框架,并为构建更强大的Web自主代理提供了见解。作者公开了代码、基准模型和数据。
- 最近的相关研究包括基于文本的自主代理和多模态代理的性能评估,以及基于视觉信息的自主代理的研究。相关论文包括《A Survey of Autonomous Agents that Play Video Games》、《Multimodal Machine Learning: A Survey and Taxonomy》等。
沙发等你来抢
去评论
评论
沙发等你来抢