LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion

向作者提问

NEW

简介

近期的机器人基础模型在很大程度上依赖于大规模行为克隆（behavior cloning），即单纯模仿专家动作，却忽视了蕴含在异构具身数据（heterogeneous embodied data）中的、可迁移的动力学知识。尽管“统一世界模型”（Unified World Model, UWM）这一建模范式理论上具备整合此类多样化数据的潜力，但现有实现方式受限于粗粒度的数据利用方式和彼此割裂的数据集，难以扩展至基础模型（foundation-level）规模。为此，我们提出LDA-1B——一种通过通用具身数据摄取（universal embodied data ingestion）实现规模化扩展的机器人基础模型；该模型通过联合学习动力学模型、策略网络与视觉预测模型，并为不同质量等级的数据赋予明确且差异化的建模角色，从而实现高效扩展。为支撑这一范式的大规模训练，我们构建并标准化了EI-30k数据集：这是一个统一格式的具身交互数据集，涵盖超过3万小时的人类与机器人操作轨迹。针对如此异构的数据实现可扩展的动力学学习，关键在于采用结构化DINO隐空间（structured DINO latent space）进行预测——此举规避了冗余的像素空间外观建模，显著提升了表征效率与泛化能力。在此表征基础上，LDA-1B进一步引入多模态扩散Transformer（multi-modal diffusion transformer），以协同处理异步输入的视觉流与动作流，从而保障模型在10亿参数（1B-parameter）规模下的训练稳定性。仿真与真实世界实验表明，LDA-1B在接触密集型任务（contact-rich tasks）、灵巧操作任务（dexterous tasks）以及长时程任务（long-horizon tasks）上，分别较先前方法（如$π_{0.5}$）提升达21%、48%和23%。尤为值得注意的是，LDA-1B支持高效的数据微调：仅利用通常被认为质量低下、因而被直接舍弃的30%低质轨迹，即可带来10%的性能增益。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

现有机器人基础模型过度依赖大规模行为克隆（behavior cloning），仅模仿专家动作而忽略从异构具身数据（如人类演示、低质量机器人轨迹、多模态传感器流）中提取可迁移的动力学知识；同时，统一世界模型（UWM）理念虽具潜力，但现有实现受限于粗粒度数据使用和数据集碎片化，难以扩展至基础模型规模。
关键思路

提出LDA-1B：首个通过‘通用具身数据摄取’（universal embodied data ingestion）实现规模化训练的机器人基础模型——其核心创新在于三重联合学习（动力学建模、策略学习、视觉预测）并为不同质量数据（如高保真专家轨迹 vs. 30%低质噪声轨迹）显式分配差异化角色；采用DINO结构化潜空间进行动力学预测，规避像素级冗余建模；设计多模态扩散Transformer处理异步视觉-动作流，支撑10亿参数稳定训练。
其它亮点

构建并开源EI-30k数据集（>30,000小时统一格式的人/机具身交互轨迹），是当前最大规模标准化具身交互数据集；首次证明低质量轨迹在合理建模下可提升泛化性（微调增益+10%仅用30%通常被丢弃的低质数据）；在仿真与真实机器人上系统评测接触密集、灵巧操作、长时序任务，相对π₀.₅等SOTA提升达21%/48%/23%；代码与EI-30k数据集已开源；值得深入方向：DINO潜空间动力学的物理可解释性、异步扩散架构的实时推理优化、跨平台（人→机器人）动力学迁移。
相关研究

Unified World Models for Robotics (CoRL 2023); RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (Google, 2023); VIMA: General Robot Manipulation with Multimodal Prompts (NeurIPS 2023); OpenVLA: An Open-Source Vision-Language-Action Model for Scalable Robot Learning (2024); Octo: A Generalist Agent Architecture for Imitation Learning (Google, 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问