OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

简介

自主代理人可以在最少的人类干预下完成复杂的计算机任务，有潜力改变人机交互，显著提高可访问性和生产力。然而，现有的基准测试要么缺乏交互环境，要么仅限于特定应用程序或领域的环境，未能反映真实世界计算机使用的多样化和复杂性，从而限制了任务的范围和代理人的可扩展性。为解决这个问题，我们介绍了OSWorld，这是一个首创的可扩展的、真实的计算机环境，用于多模态代理人，支持任务设置、基于执行的评估和跨Ubuntu、Windows和macOS等各种操作系统的交互式学习。OSWorld可以作为一个统一的、集成的计算机环境，用于评估涉及任意应用程序的开放式计算机任务。在OSWorld的基础上，我们创建了一个基准测试，涉及369个计算机任务，涉及实际的Web和桌面应用程序、操作系统文件I/O和跨多个应用程序的工作流程。每个任务示例都来自于真实的计算机使用案例，并包括详细的初始状态设置配置和自定义的基于执行的评估脚本，以实现可靠、可重复的评估。在OSWorld上对最先进的基于LLM/VLM的代理人进行广泛评估，揭示了它们作为计算机助手的显著不足之处。虽然人类可以完成超过72.36%的任务，但最佳模型仅实现了12.24%的成功率，主要困难在于GUI基础和操作知识。使用OSWorld进行全面分析提供了有价值的见解，以开发以前所未有的多模态通用代理人。我们的代码、环境、基线模型和数据可在https://os-world.github.io上公开获取。
图表
解决问题

论文旨在解决计算机辅助人类完成复杂任务的问题，提出了一个新的可扩展的真实计算机环境和基于此环境的多模态代理的评估基准。
关键思路

论文提出了OSWorld，这是一个支持任务设置、执行评估和交互式学习的真实计算机环境，可以作为一个统一的、集成的计算机环境来评估涉及任意应用程序的开放式计算机任务。同时，论文还创建了一个包含369个计算机任务的基准，涉及真实的Web和桌面应用程序、操作系统文件I/O和跨多个应用程序的工作流程。
其它亮点

论文的实验使用OSWorld环境和基准，评估了现有的LLM/VLM代理在计算机辅助任务方面的表现，并揭示了他们在GUI基础和操作知识方面的显著不足。论文的代码、环境、基线模型和数据都是公开可用的。
相关研究

最近的相关研究包括基于语言模型的计算机辅助代理、基于视觉和语言模型的多模态代理、以及基于强化学习的计算机辅助代理等。

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

评论