- 简介通过图形用户界面(GUI)操作计算机的自主代理在处理复杂且长期的任务时,常常面临效率低下和可靠性不足的问题。尽管通过引入规划器可以提升任务分解能力,但这些代理仍然受限于完全依赖GUI操作所带来的固有缺陷,导致系统脆弱且低效。在本研究中,我们提出了一种更为稳健且灵活的范式:让代理将编程作为一种增强的行动方式来使用。我们推出了CoAct-1,这是一个全新的多代理系统,能够协同结合基于GUI的控制与直接的程序执行。CoAct-1包含一个协调器(Orchestrator),可以根据需要动态地将子任务分配给传统的GUI操作代理或专门的编程代理,后者能够编写并执行Python或Bash脚本。这种混合方法使得代理可以绕过低效的GUI操作流程,以更高效地完成文件管理、数据处理等任务,同时在必要时仍能利用视觉交互。我们在具有挑战性的OSWorld基准测试中评估了我们的系统,CoAct-1取得了60.76%的成功率,创下新的最佳表现,显著优于此前方法。此外,我们的方法在效率方面也有大幅提升,完成任务所需的平均步骤数仅为10.15步,而领先GUI代理的平均步骤数为15步。我们的研究结果表明,将编程能力作为代理的核心行动之一,为实现更强大、高效且可扩展的通用计算机自动化提供了可行路径。
-
- 图表
- 解决问题论文试图解决自主代理通过图形用户界面(GUI)操作计算机时在复杂、长周期任务中效率低下且可靠性差的问题。这是一个在自动化和人工智能领域长期存在的挑战,尤其是在任务分解和动作执行层面。
- 关键思路论文提出了一种新的范式:将编程能力作为增强动作,使代理能够结合GUI操作与程序化执行。关键创新在于引入一个协调器(Orchestrator),动态将子任务分配给GUI操作员或程序员代理,后者可以编写并执行Python或Bash脚本,从而提高效率和鲁棒性。
- 其它亮点1. 提出了CoAct-1多智能体系统,实现了GUI控制与编程能力的协同 2. 在OSWorld基准测试中达到60.76%的最新成功率 3. 显著减少了任务完成所需的平均步骤数(10.15步 vs 15步) 4. 展示了将程序化执行集成到自动化代理中的潜力
- 1. Visual Reinforcement Learning for GUI Interaction 2. Plan-and-Execute Frameworks for Long-Horizon Tasks 3. Code Generation Models like Codex and AlphaCode 4. Agent Systems Combining Planning and Acting in Virtual Environments 5. Recent Advances in Tool-Augmented Language Models
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流