OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web

  • 简介
    多年来,人机交互基本上一直是手动的。即使在今天,几乎所有在计算机上进行的生产性工作都需要人类的每一步输入。自主虚拟代理人代表了自动化许多这些琐碎任务的一个令人兴奋的步骤。虚拟代理人将使技术能力有限的用户能够利用计算机系统的全部可能性。它们还可以实现对许多计算机任务的高效流程化管理,从日历管理到复杂的旅行预订,只需最少的人工干预。在本文中,我们介绍了OmniACT,这是一个首创的数据集和基准,用于评估代理人生成可执行程序以完成计算机任务的能力。我们的范围超出了传统的网络自动化,涵盖了各种桌面应用程序。数据集包括基本任务,如“播放下一首歌曲”,以及更长期的任务,如“发送一封电子邮件给约翰·多,提到见面的时间和地点”。具体而言,给定一对屏幕图像和一个基于视觉的自然语言任务,目标是生成一个能够完全执行任务的脚本。我们在我们的基准测试中运行了几个强大的基线语言模型代理。最强的基线,GPT-4,在我们的基准测试中表现最佳。然而,它的性能水平仍然只达到了人类生成可执行脚本完成任务的熟练程度的15%,这表明对于传统的网络代理人来说,我们的任务是具有挑战性的。我们的基准测试提供了一个平台,用于衡量和评估语言模型代理自动化计算机任务的进展,并激励未来的工作,以构建桥接大型语言模型和计算机屏幕的视觉基础的多模型。
  • 图表
  • 解决问题
    OmniACT论文试图解决的问题是如何让虚拟代理人生成可执行程序以完成计算机任务,并提供了一个数据集和基准测试来评估语言模型代理人的能力。
  • 关键思路
    OmniACT的关键思路是使用视觉引导的自然语言任务来生成可执行脚本,覆盖了传统的Web自动化以及桌面应用程序的多样化任务,挑战了传统Web代理人的能力,并提出了建立多模型的概念。
  • 其它亮点
    OmniACT提供了一个新的数据集和基准测试,用于评估代理人生成可执行程序的能力,论文提供了几个强大的基线模型,并且GPT-4表现最佳,但其性能仅达到人类生成可执行脚本的15%,这表明了这个任务对于传统的Web代理人的挑战。同时,论文也提出了建立多模型的概念,以进一步提高代理人的性能。
  • 相关研究
    最近的相关研究包括基于语言模型的自然语言程序生成,以及视觉引导的任务学习。其中,一些论文标题包括:“Neural Program Synthesis with Type Annotations”,“Learning to Learn Programs from Examples”,“Visual Interaction Networks”等。
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论