SIMA 2: A Generalist Embodied Agent for Virtual Worlds

2025年12月04日
  • 简介
    我们推出了SIMA 2,这是一种通用型具身智能体,能够在多种多样的三维虚拟世界中理解环境并采取行动。基于Gemini基础模型构建,SIMA 2标志着在具身环境中实现主动、目标导向交互的重要进展。与以往仅能响应简单语言指令的工作(例如SIMA 1)不同,SIMA 2能够作为互动伙伴,具备推理高层目标、与用户对话,以及处理通过语言和图像给出的复杂指令的能力。在涵盖多种类型的游戏中,SIMA 2显著缩小了与人类表现之间的差距,并展现出在之前未见过的环境中强大的泛化能力,同时保留了基础模型的核心推理功能。此外,我们还展示了其开放式的自我提升能力:通过利用Gemini生成任务并提供奖励信号,SIMA 2能够在全新环境中从零开始自主学习新技能。本研究验证了一条通往构建适用于虚拟世界乃至最终物理世界的多功能、持续学习智能体的发展路径。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决的是如何构建一个能够在多样化3D虚拟环境中理解复杂指令、进行高级目标推理并持续自主学习的通用具身智能体。传统方法如SIMA 1局限于简单语言命令,缺乏与用户对话、处理多模态输入(语言和图像)以及在新环境中自适应学习的能力。这是一个正在兴起但尚未充分解决的问题,尤其在实现通用性和持续学习方面。
  • 关键思路
    SIMA 2基于Gemini基础模型,将大型多模态模型的强大推理能力与具身代理的行动能力相结合,使其不仅能执行语言指令,还能作为交互式伙伴理解高层目标、进行自然语言对话,并通过自我生成任务和奖励信号实现开放式的自主技能学习。相比之前工作,其核心创新在于实现了从被动执行到主动推理与自我改进的跃迁。
  • 其它亮点
    SIMA 2在多个不同游戏环境中显著缩小了与人类表现的差距,并展现出对未见环境的强大泛化能力;实验设计涵盖多样化的3D虚拟世界,验证了模型的通用性;利用Gemini自动生成任务和奖励,实现了无需人工标注的自主学习;保留了基础模型的推理能力,支持复杂指令理解;目前未提及代码是否开源,未来可深入研究其在物理世界中的迁移能力及长期自我进化机制。
  • 相关研究
    1. “SIMA: Scalable Instructable Multiworld Agent” by Google DeepMind and collaborators 2. “PaLM-E: An Embodied Multimodal Language Model” by Driess et al., Google Research 3. “VIMA: Vision-Language-Action Models for General Robot Manipulation” by Qin et al. 4. “RT-2: Vision-Language-Action Models from Web-Scale Reinforcement Learning” by Google DeepMind 5. “Flamingo: a Visual Language Model for Few-Shot Learning” by Alayrac et al., DeepMind
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问