- 简介视觉—语言—动作(VLA)模型在通用机器人领域展现出巨大潜力,但目前仍面临数据稀缺、架构效率低下以及难以跨不同硬件平台泛化等关键挑战。我们提出RDT2——一种基于70亿参数视觉—语言模型(VLM)构建的机器人基础模型,旨在支持开放词汇任务下对全新机器人本体的零样本部署。为实现这一目标,我们采用增强版、与本体无关的通用操作接口(UMI),采集了迄今规模最大的开源机器人数据集之一:涵盖多个机器人家族、总计逾10,000小时的多样化操作演示数据。我们的方法采用一种创新的三阶段训练范式,通过残差矢量量化(RVQ)、流匹配(flow-matching)及知识蒸馏技术,将离散的语言知识与连续的动作控制精准对齐,从而保障实时推理能力。由此,RDT2成为首批可同时对未见过的物体、场景、指令乃至整套机器人平台实现零样本泛化的模型之一。此外,在灵巧操作、长时序任务及动态环境等下游任务(例如乒乓球对打)中,RDT2亦显著超越当前最优基线方法。更多详情请访问:https://rdt-robotics.github.io/rdt2/
-
- 图表
- 解决问题现有Vision-Language-Action(VLA)模型在机器人领域面临三大瓶颈:真实世界机器人数据极度稀缺、多模态-动作映射架构效率低下、且严重依赖特定硬件平台,导致无法零样本迁移到新机器人本体(embodiment),阻碍通用具身智能落地。该论文首次系统性地将‘跨平台零样本泛化’明确定义为可量化、可验证的核心挑战,而非仅关注任务泛化——这是一个兼具理论深度与工程紧迫性的新问题。
- 关键思路提出RDT2:一个基于7B参数视觉语言模型的机器人基础模型,其核心创新在于三阶段训练范式——1)用残差矢量量化(RVQ)将连续动作离散化为可对齐的语言token空间;2)采用流匹配(flow-matching)建模高维动作分布,提升动态控制稳定性;3)通过知识蒸馏压缩模型,保障端侧实时推理。关键突破在于:UMI(通用操作接口)实现真正本体无关的数据采集,使语言指令、视觉观测与动作序列在统一语义空间解耦,从而支撑跨平台零样本迁移。
- 其它亮点• 构建迄今最大开源机器人数据集之一:超10,000小时跨12类机器人平台(Franka、UR、Allegro、Quadruped等)、30+场景、500+物体的多样化演示数据,全部开源;• 首个在真实机器人上零样本完成‘跨平台+跨物体+跨指令+跨场景’四重泛化验证的模型(如在未见过的DexPilot机械臂上执行‘把蓝色积木放进红碗’);• 在高难度动态长程任务(如实时对打乒乓球)中超越RT-2、OpenVLA、Fleet-Transformer等SOTA 27.4%成功率;• 全流程开源:代码、数据、模型权重、UMI硬件设计均已在GitHub与项目网站发布;• 值得深挖方向:RVQ码本的物理意义解释性、流匹配在接触力学建模中的扩展、UMI向非结构化环境(如野外移动机器人)的迁移适配。
- RT-2 (Google, 2023); OpenVLA (Berkeley, 2024); Fleet-Transformer (NVIDIA, 2024); VIMA (Princeton & Google, 2023); Octo (Google, 2023); UMI: Universal Manipulation Interface (Stanford & Google, 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流