Gemini 2.5 Computer Use模型现已发布,基于Gemini 2.5 Pro的视觉理解与推理能力,专为操作用户界面而设计。该模型在多项网页与移动控制基准测试中表现优于现有方案,且延迟更低,可实现点击、输入、滚动等类人操作,支持表单填写、下拉菜单控制及登录后操作。开发者可通过Google AI Studio和Vertex AI的Gemini API调用此功能,使AI代理能直接与图形界面交互,完成需UI操作的复杂数字任务,弥补了传统API接入的局限,提升自动化能力。

本专栏通过快照技术转载,仅保留核心内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除