Google DeepMind推出了基于Gemini 2.0的两款新AI模型,旨在为新一代助手机器人奠定基础。Gemini Robotics是一款先进的视觉-语言-行动(VLA)模型,在Gemini 2.0的基础上增加了物理动作作为新的输出模式,以直接控制机器人。它能够通过多模态推理处理文本、图像、音频和视频信息,并具备“具身”推理能力,即像人类一样理解并反应周围环境,安全地执行任务。另一款模型Gemini Robotics-ER则强化了空间理解能力。这两款模型标志着AI从数字领域迈向物理世界的重大进展,使AI能更好地帮助人们在现实世界中解决问题。

本专栏通过快照技术转载,仅保留核心内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除