OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

简介

自主与计算机的交互一直是一个具有巨大潜力的长期挑战，而最近大型语言模型的普及显著加速了构建数字代理的进展。然而，这些代理大多设计用于与狭窄领域交互，例如特定软件或网站。这种狭窄的焦点限制了它们在一般计算机任务中的适用性。为此，我们介绍了OS-Copilot，这是一个构建通用代理的框架，能够与操作系统中的全面元素进行接口交互，包括网络、代码终端、文件、多媒体和各种第三方应用程序。我们使用OS-Copilot创建FRIDAY，一个自我改进的具有实体的代理，用于自动化一般计算机任务。在GAIA上，一个通用的AI助手基准测试中，FRIDAY的表现比以前的方法提高了35%，通过从前面的任务中积累的技能，展示了对未见过应用的强大泛化能力。我们还提供了数字和定量证据，表明FRIDAY学会了在Excel和Powerpoint上进行控制和自我改进，且监督较少。我们的OS-Copilot框架和实证发现为未来研究提供了基础设施和见解，以实现更强大和通用的计算机代理。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

论文试图构建一种能够与操作系统中的各种元素进行交互的通用计算机代理，以自动化通用计算机任务。
关键思路

OS-Copilot框架可以用于构建这种通用计算机代理，该框架可以与操作系统中的各种元素进行交互，FRIDAY是这种代理的一个实现，通过积累先前任务的技能表现出对未见过应用程序的强大泛化能力。
其它亮点

实验表明，FRIDAY在GAIA基准测试中比以前的方法表现优异，可以学习控制和自我改进Excel和Powerpoint。该论文提供了一个新的框架和实证结果，为未来研究更有能力和通用的计算机代理提供了基础和见解。
相关研究

最近的相关研究包括基于大型语言模型的数字助手和通用计算机代理的构建，如GPT-3和DALL-E。

OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

提问交流

提问交流