- 简介我们推出了RoboBrain 2.0,这是我们最新一代的具身视觉-语言基础模型,旨在统一感知、推理与规划能力,以应对物理环境中复杂的具身任务。该模型有两种版本:轻量级的7B参数模型和全规模的32B参数模型,采用了包含视觉编码器和语言模型的异构架构。尽管体积紧凑,RoboBrain 2.0在各种具身推理任务中仍表现出色。在空间与时间基准测试中,32B版本取得了领先的成绩,超越了此前的开源与闭源模型。特别是,它支持多项关键的真实世界具身AI能力,包括空间理解(例如可供性预测、空间指称、轨迹预测)和时间决策(例如闭环交互、多智能体长视野规划、场景图更新)。本报告详细介绍了模型架构、数据构建、多阶段训练策略、基础设施及实际应用。我们希望RoboBrain 2.0能推动具身智能的研究,并成为构建通用型具身智能体的实用一步。代码、模型权重和基准测试请访问 https://superrobobrain.github.io。
-
- 图表
- 解决问题论文试图解决具身智能(embodied AI)中感知、推理与规划的统一问题,旨在提升物理环境中复杂任务的智能体表现。这涉及空间理解与时间决策能力,如可操作性预测、轨迹预测和长期多智能体规划。这是一个持续受到关注的问题,但对统一模型的设计提出了新的挑战。
- 关键思路提出RoboBrain 2.0,一个异构架构的视觉-语言基础模型,包含视觉编码器和语言模型,支持从轻量级到全规模的不同变体(7B和32B)。其核心创新在于将多种模态和任务整合在一个统一框架中,通过多阶段训练策略实现复杂具身任务的能力,包括空间理解和时间决策。
- 其它亮点1. 推出两种模型变体(7B和32B),兼顾性能与部署灵活性 2. 在多个空间和时序基准测试中超越现有开源和专有模型 3. 支持多种现实世界具身AI能力,如场景图更新、长视野规划等 4. 论文详细介绍了数据构建、训练策略及实际应用案例 5. 提供开源代码、检查点和基准测试,促进后续研究
- 1. Embodied Vision-and-Language Pretraining: A Survey 2. ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks 3. BEiT-3: One Model To Learn and Represent All Modality Information in 3D Embodied Agents 4. Perceiver: General Perception with Iterative Attention 5. VILA: Vision-and-Language Architecture for Multimodal Reasoning
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流