Gemini Robotics 1.5 brings AI agents into the physical world

谷歌正推动物理智能体时代，让机器人具备感知、规划、思考、使用工具和执行复杂多步任务的能力。今年早些时候，Gemini多模态模型已开始融入物理世界。如今推出两款新模型：Gemini Robotics 1.5是最先进的视觉-语言-行动（VLA）模型，能将视觉信息与指令转化为机器人动作，具备行动前思考与过程可视化能力，并可在不同机器人形态间迁移学习；Gemini Robotics-ER 1.5则是最强视觉-语言模型（VLM），可推理物理环境，原生调用数字工具，增强现实与数字世界的交互，推动通用智能机器人发展。

本专栏通过快照技术转载，仅保留核心内容