报告主题:OpenCUA:用于构建Computer-Use Agent的开源框架

报告日期:02月05日(周四)10:30-11:30

报告要点:

本期报告将由香港大学王心远进行分享。

具备视觉-语言能力的大模型已展现出一定的电脑操作能力,但当前最强系统多为闭源,社区在基建、数据与高性能开源模型方面仍存在缺口。计算机使用任务跨操作系统与多软件、决策链长、反馈即时,对感知—理解—规划—可验证执行提出更高要求。视觉-语言模型已展现出作为计算机使用代理(CUA)的卓越能力,能够自动化执行多种计算机任务。随着其商业潜力不断增长,目前最先进的CUA系统仍处于封闭状态,关键细节不得而知。由于这些代理将越来越多地介入我们的数字交互,并代表我们执行具有实际影响的决策,研究界迫切需要开放的CUA框架,以研究其能力、局限性和潜在风险。为填补这一空白,我们提出了OpenCUA——一个全面的开源框架,用于扩展CUA数据和基础模型。

我们的框架包含以下组成部分:(1)一套标注基础设施,能够无缝捕捉人类使用计算机的操作演示;(2)AgentNet,这是首个大规模的计算机使用任务数据集,覆盖3种操作系统以及200多个应用程序和网站;(3)一个可扩展的处理流程,能将操作演示转化为带有反思性长链思维推理(Chain-of-Thought)的状态-动作对,从而在数据规模扩大时持续保持性能提升。我们的端到端代理模型在多项CUA基准测试中表现出色。特别是OpenCUA-32B在OSWorld-Verified测试中取得了平均34.8%的成功率,成为开源模型中的新标杆(SOTA),并超过了OpenAI的CUA模型(GPT-4o)。

进一步分析表明,我们的方法在多个领域中具有良好的泛化能力,并且在测试阶段计算资源增加时表现出显著的性能提升。我们已公开发布标注工具、数据集、代码和模型,旨在为后续的CUA研究建立开放的基础。

相关论文:OpenCUA: Open Foundations for Computer-Use Agents

项目页面:https://opencua.xlang.ai/ (包含工具、模型、数据集)

报告嘉宾:

王心远,香港大学 XLANG Lab 计算机科学博士生,师从余涛老师。研究方向为 Agent 基础模型 与 计算机使用智能体(Computer-Use Agents)。参与的主要工作包括:开源体系 OpenCUA(NeurIPS 2025 Spotlight),构建从数据、模型到评测的一体化框架;真实用户众包评测平台 Computer Agent Arena;Kimi-VL 模型的 computer-use 能力;以及 Jedi 桌面 grounding 模型与基准(NeurIPS 2025 Spotlight)。致力于让模型以语言在数字与真实环境中稳健完成复杂任务,并参与 NeurIPS、ICLR、AAAI 等会议审稿。

网站观看地址



更多热门活动

内容中包含的图片若涉及版权问题,请及时与我们联系删除