Introducing the Gemini 2.5 Computer Use model

Gemini 2.5 Computer Use模型现已发布，基于Gemini 2.5 Pro的视觉理解与推理能力，专为操作用户界面而设计。该模型在多项网页与移动控制基准测试中表现优于现有方案，且延迟更低，可实现点击、输入、滚动等类人操作，支持表单填写、下拉菜单控制及登录后操作。开发者可通过Google AI Studio和Vertex AI的Gemini API调用此功能，使AI代理能直接与图形界面交互，完成需UI操作的复杂数字任务，弥补了传统API接入的局限，提升自动化能力。

本专栏通过快照技术转载，仅保留核心内容