GPT-4V(ision) is a Generalist Web Agent, if Grounded

简介

最近关于大型多模态模型（LMMs）的发展，特别是GPT-4V（ision）和Gemini，已经迅速扩展了多模态模型的能力边界，超越了传统的任务，如图像字幕和视觉问答。在这项工作中，我们探索了像GPT-4V这样的LMMs作为一种通用网络代理的潜力，它可以按照自然语言指令完成任何给定网站上的任务。我们提出了SEEACT，一种通用网络代理，利用LMMs的力量进行综合的视觉理解和网络操作。我们在最近的MIND2WEB基准测试上进行了评估。除了对缓存网站的标准离线评估外，我们还开发了一种工具，可以在实时网站上运行网络代理，从而实现了新的在线评估设置。我们发现，GPT-4V在网络代理方面具有巨大的潜力，如果我们将其文本计划手动转化为网站上的操作，它可以成功完成50％的实时网站任务。这大大优于专门针对网络代理进行微调的文本LMMs，如GPT-4或更小的模型（FLAN-T5和BLIP-2）。然而，文本计划转化仍然是一个主要的挑战。现有的LMM基础策略，如一组标记提示，对于网络代理来说并不有效，而我们在本文中开发的最佳基础策略利用了HTML文本和视觉效果。然而，与理想基础相比，仍存在相当大的差距，留下了充分的改进空间。
图表
解决问题

探索使用大型多模态模型作为通用网络代理的潜力，以便根据自然语言指令在任何给定网站上完成任务。
关键思路

使用GPT-4V作为综合视觉理解和网页操作的通用网络代理，通过开发在线评估工具，实现了在实时网站上运行网络代理的新的在线评估设置。
其它亮点

论文使用MIND2WEB基准进行评估，展示了GPT-4V在网页代理方面的巨大潜力，能够成功完成50%的实时网站任务。但是，仍存在着文本计划转换为网页操作的挑战，现有的方法并不适用于网页代理。论文开发了一种最佳的文本计划转换策略，利用HTML文本和视觉信息，但与理想的转换仍有很大差距。
相关研究

最近的相关研究包括使用多模态模型进行图像标注和视觉问答的工作，以及使用GPT-4V进行自然语言处理的其他应用。

GPT-4V(ision) is a Generalist Web Agent, if Grounded

评论