Gemini Robotics brings AI into the physical world

Google DeepMind推出了基于Gemini 2.0的两款新AI模型，旨在为新一代助手机器人奠定基础。Gemini Robotics是一款先进的视觉-语言-行动（VLA）模型，在Gemini 2.0的基础上增加了物理动作作为新的输出模式，以直接控制机器人。它能够通过多模态推理处理文本、图像、音频和视频信息，并具备“具身”推理能力，即像人类一样理解并反应周围环境，安全地执行任务。另一款模型Gemini Robotics-ER则强化了空间理解能力。这两款模型标志着AI从数字领域迈向物理世界的重大进展，使AI能更好地帮助人们在现实世界中解决问题。

本专栏通过快照技术转载，仅保留核心内容