谷歌正推动物理智能体时代,让机器人具备感知、规划、思考、使用工具和执行复杂多步任务的能力。今年早些时候,Gemini多模态模型已开始融入物理世界。如今推出两款新模型:Gemini Robotics 1.5是最先进的视觉-语言-行动(VLA)模型,能将视觉信息与指令转化为机器人动作,具备行动前思考与过程可视化能力,并可在不同机器人形态间迁移学习;Gemini Robotics-ER 1.5则是最强视觉-语言模型(VLM),可推理物理环境,原生调用数字工具,增强现实与数字世界的交互,推动通用智能机器人发展。
本专栏通过快照技术转载,仅保留核心内容
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢