CoAct-1: Computer-using Agents with Coding as Actions

向作者提问

NEW

简介

通过图形用户界面（GUI）操作计算机的自主代理在处理复杂且长期的任务时，常常面临效率低下和可靠性不足的问题。尽管通过引入规划器可以提升任务分解能力，但这些代理仍然受限于完全依赖GUI操作所带来的固有缺陷，导致系统脆弱且低效。在本研究中，我们提出了一种更为稳健且灵活的范式：让代理将编程作为一种增强的行动方式来使用。我们推出了CoAct-1，这是一个全新的多代理系统，能够协同结合基于GUI的控制与直接的程序执行。CoAct-1包含一个协调器（Orchestrator），可以根据需要动态地将子任务分配给传统的GUI操作代理或专门的编程代理，后者能够编写并执行Python或Bash脚本。这种混合方法使得代理可以绕过低效的GUI操作流程，以更高效地完成文件管理、数据处理等任务，同时在必要时仍能利用视觉交互。我们在具有挑战性的OSWorld基准测试中评估了我们的系统，CoAct-1取得了60.76%的成功率，创下新的最佳表现，显著优于此前方法。此外，我们的方法在效率方面也有大幅提升，完成任务所需的平均步骤数仅为10.15步，而领先GUI代理的平均步骤数为15步。我们的研究结果表明，将编程能力作为代理的核心行动之一，为实现更强大、高效且可扩展的通用计算机自动化提供了可行路径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决自主代理通过图形用户界面（GUI）操作计算机时在复杂、长周期任务中效率低下且可靠性差的问题。这是一个在自动化和人工智能领域长期存在的挑战，尤其是在任务分解和动作执行层面。
关键思路

论文提出了一种新的范式：将编程能力作为增强动作，使代理能够结合GUI操作与程序化执行。关键创新在于引入一个协调器（Orchestrator），动态将子任务分配给GUI操作员或程序员代理，后者可以编写并执行Python或Bash脚本，从而提高效率和鲁棒性。
其它亮点

1. 提出了CoAct-1多智能体系统，实现了GUI控制与编程能力的协同 2. 在OSWorld基准测试中达到60.76%的最新成功率 3. 显著减少了任务完成所需的平均步骤数（10.15步 vs 15步） 4. 展示了将程序化执行集成到自动化代理中的潜力
相关研究

1. Visual Reinforcement Learning for GUI Interaction 2. Plan-and-Execute Frameworks for Long-Horizon Tasks 3. Code Generation Models like Codex and AlphaCode 4. Agent Systems Combining Planning and Acting in Virtual Environments 5. Recent Advances in Tool-Augmented Language Models

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问