本周四｜香港大学&KiMi，开源OpenCUA：每人都可造专属电脑智能体

报告主题：OpenCUA：用于构建Computer-Use Agent的开源框架

报告日期：02月05日（周四）10：30-11：30

报告要点：

本期报告将由香港大学王心远进行分享。

具备视觉-语言能力的大模型已展现出一定的电脑操作能力，但当前最强系统多为闭源，社区在基建、数据与高性能开源模型方面仍存在缺口。计算机使用任务跨操作系统与多软件、决策链长、反馈即时，对感知—理解—规划—可验证执行提出更高要求。视觉-语言模型已展现出作为计算机使用代理（CUA）的卓越能力，能够自动化执行多种计算机任务。随着其商业潜力不断增长，目前最先进的CUA系统仍处于封闭状态，关键细节不得而知。由于这些代理将越来越多地介入我们的数字交互，并代表我们执行具有实际影响的决策，研究界迫切需要开放的CUA框架，以研究其能力、局限性和潜在风险。为填补这一空白，我们提出了OpenCUA——一个全面的开源框架，用于扩展CUA数据和基础模型。

我们的框架包含以下组成部分：（1）一套标注基础设施，能够无缝捕捉人类使用计算机的操作演示；（2）AgentNet，这是首个大规模的计算机使用任务数据集，覆盖3种操作系统以及200多个应用程序和网站；（3）一个可扩展的处理流程，能将操作演示转化为带有反思性长链思维推理（Chain-of-Thought）的状态-动作对，从而在数据规模扩大时持续保持性能提升。我们的端到端代理模型在多项CUA基准测试中表现出色。特别是OpenCUA-32B在OSWorld-Verified测试中取得了平均34.8%的成功率，成为开源模型中的新标杆（SOTA），并超过了OpenAI的CUA模型（GPT-4o）。

进一步分析表明，我们的方法在多个领域中具有良好的泛化能力，并且在测试阶段计算资源增加时表现出显著的性能提升。我们已公开发布标注工具、数据集、代码和模型，旨在为后续的CUA研究建立开放的基础。

相关论文：OpenCUA: Open Foundations for Computer-Use Agents

项目页面：https://opencua.xlang.ai/ （包含工具、模型、数据集）

报告嘉宾：

王心远，香港大学 XLANG Lab 计算机科学博士生，师从余涛老师。研究方向为 Agent 基础模型与计算机使用智能体（Computer-Use Agents）。参与的主要工作包括：开源体系 OpenCUA（NeurIPS 2025 Spotlight），构建从数据、模型到评测的一体化框架；真实用户众包评测平台 Computer Agent Arena；Kimi-VL 模型的 computer-use 能力；以及 Jedi 桌面 grounding 模型与基准（NeurIPS 2025 Spotlight）。致力于让模型以语言在数字与真实环境中稳健完成复杂任务，并参与 NeurIPS、ICLR、AAAI 等会议审稿。

网站观看地址

更多热门活动

内容中包含的图片若涉及版权问题，请及时与我们联系删除

本周四｜香港大学&KiMi，开源OpenCUA：每人都可造专属电脑智能体

评论列表

评论