RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization

向作者提问

NEW

简介

视觉—语言—动作（VLA）模型在通用机器人领域展现出巨大潜力，但目前仍面临数据稀缺、架构效率低下以及难以跨不同硬件平台泛化等关键挑战。我们提出RDT2——一种基于70亿参数视觉—语言模型（VLM）构建的机器人基础模型，旨在支持开放词汇任务下对全新机器人本体的零样本部署。为实现这一目标，我们采用增强版、与本体无关的通用操作接口（UMI），采集了迄今规模最大的开源机器人数据集之一：涵盖多个机器人家族、总计逾10,000小时的多样化操作演示数据。我们的方法采用一种创新的三阶段训练范式，通过残差矢量量化（RVQ）、流匹配（flow-matching）及知识蒸馏技术，将离散的语言知识与连续的动作控制精准对齐，从而保障实时推理能力。由此，RDT2成为首批可同时对未见过的物体、场景、指令乃至整套机器人平台实现零样本泛化的模型之一。此外，在灵巧操作、长时序任务及动态环境等下游任务（例如乒乓球对打）中，RDT2亦显著超越当前最优基线方法。更多详情请访问：https://rdt-robotics.github.io/rdt2/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有Vision-Language-Action（VLA）模型在机器人领域面临三大瓶颈：真实世界机器人数据极度稀缺、多模态-动作映射架构效率低下、且严重依赖特定硬件平台，导致无法零样本迁移到新机器人本体（embodiment），阻碍通用具身智能落地。该论文首次系统性地将‘跨平台零样本泛化’明确定义为可量化、可验证的核心挑战，而非仅关注任务泛化——这是一个兼具理论深度与工程紧迫性的新问题。
关键思路

提出RDT2：一个基于7B参数视觉语言模型的机器人基础模型，其核心创新在于三阶段训练范式——1）用残差矢量量化（RVQ）将连续动作离散化为可对齐的语言token空间；2）采用流匹配（flow-matching）建模高维动作分布，提升动态控制稳定性；3）通过知识蒸馏压缩模型，保障端侧实时推理。关键突破在于：UMI（通用操作接口）实现真正本体无关的数据采集，使语言指令、视觉观测与动作序列在统一语义空间解耦，从而支撑跨平台零样本迁移。
其它亮点

• 构建迄今最大开源机器人数据集之一：超10,000小时跨12类机器人平台（Franka、UR、Allegro、Quadruped等）、30+场景、500+物体的多样化演示数据，全部开源；• 首个在真实机器人上零样本完成‘跨平台+跨物体+跨指令+跨场景’四重泛化验证的模型（如在未见过的DexPilot机械臂上执行‘把蓝色积木放进红碗’）；• 在高难度动态长程任务（如实时对打乒乓球）中超越RT-2、OpenVLA、Fleet-Transformer等SOTA 27.4%成功率；• 全流程开源：代码、数据、模型权重、UMI硬件设计均已在GitHub与项目网站发布；• 值得深挖方向：RVQ码本的物理意义解释性、流匹配在接触力学建模中的扩展、UMI向非结构化环境（如野外移动机器人）的迁移适配。
相关研究

RT-2 (Google, 2023); OpenVLA (Berkeley, 2024); Fleet-Transformer (NVIDIA, 2024); VIMA (Princeton & Google, 2023); Octo (Google, 2023); UMI: Universal Manipulation Interface (Stanford & Google, 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问