多年来,人机交互基本上一直是手动的。即使在今天,几乎所有在计算机上进行的生产性工作都需要人类的每一步输入。自主虚拟代理人代表了自动化许多这些琐碎任务的一个令人兴奋的步骤。虚拟代理人将使技术能力有限的用户能够利用计算机系统的全部可能性。它们还可以实现对许多计算机任务的高效流程化管理,从日历管理到复杂的旅行预订,只需最少的人工干预。在本文中,我们介绍了OmniACT,这是一个首创的数据集和基准,用于评估代理人生成可执行程序以完成计算机任务的能力。我们的范围超出了传统的网络自动化,涵盖了各种桌面应用程序。数据集包括基本任务,如“播放下一首歌曲”,以及更长期的任务,如“发送一封电子邮件给约翰·多,提到见面的时间和地点”。具体而言,给定一对屏幕图像和一个基于视觉的自然语言任务,目标是生成一个能够完全执行任务的脚本。我们在我们的基准测试中运行了几个强大的基线语言模型代理。最强的基线,GPT-4,在我们的基准测试中表现最佳。然而,它的性能水平仍然只达到了人类生成可执行脚本完成任务的熟练程度的15%,这表明对于传统的网络代理人来说,我们的任务是具有挑战性的。我们的基准测试提供了一个平台,用于衡量和评估语言模型代理自动化计算机任务的进展,并激励未来的工作,以构建桥接大型语言模型和计算机屏幕的视觉基础的多模型。
提问交流