mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs

向作者提问

NEW

简介

当前主流的视觉-语言-动作模型（VLAs）在机器人操作任务中的应用，通常基于在大规模但彼此孤立的静态网络数据上预训练的视觉-语言主干网络。因此，尽管这类模型在语义泛化能力上有所提升，其策略仍需仅从机器人轨迹中隐式地推断复杂的物理动态特性和时间依赖关系。这种依赖导致了不可持续的数据需求，必须持续收集大规模的专家数据，以弥补模型先天缺乏对物理规律理解的不足。我们认为，尽管视觉-语言预训练能有效捕捉语义先验知识，却无法感知物理因果关系。一种更有效的范式是在预训练阶段引入视频数据，联合学习语义信息与视觉动态特征，从而将剩余问题简化为低层级控制任务。为此，我们提出了mimic-video——一种新颖的视频-动作模型（VAM），该模型将一个在互联网规模视频数据上预训练的视频主干网络，与一个基于流匹配（flow matching）的动作解码器相结合，且解码器以视频模型的潜在表征作为条件输入。该解码器充当逆动力学模型（IDM），通过视频空间中的动作规划潜在表征生成机器人的低层级动作。大量实验结果表明，我们的方法在模拟环境和真实世界的机器人操作任务中均达到了最先进的性能，相比传统VLA架构，样本效率提升了10倍，收敛速度提高了2倍。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有的视觉-语言-动作模型（VLAs）依赖于在大规模但不连贯的静态网络数据上预训练的视觉-语言骨干，导致模型在缺乏物理因果理解的情况下，必须从机器人轨迹中隐式推断复杂的物理动态和时间依赖关系。这带来了巨大的数据负担，需要持续收集大量专家级操作数据，限制了样本效率和实际部署的可行性。这是一个尚未被充分解决的重要问题，尤其是在追求高效、泛化强的机器人操控系统时。
关键思路

提出一种新的范式：利用互联网规模的视频数据联合捕捉语义与视觉动态信息，而非仅依赖静态图像-文本对。论文引入mimic-video，一种新型视频-动作模型（VAM），将预训练的视频模型与基于流匹配的动作解码器结合，利用视频潜空间表征作为视觉计划，由解码器作为逆动力学模型（IDM）生成低层机器人动作。这一思路将高层语义-动态理解与底层控制解耦，显著降低学习复杂物理交互的数据需求。
其它亮点

在模拟和真实世界机器人操纵任务中实现了最先进性能；相比传统VLA模型，样本效率提升10倍，收敛速度加快2倍；实验设计涵盖多种操作场景，验证了跨环境泛化能力；使用了大规模网络视频数据进行预训练，并结合机器人轨迹微调；目前未明确提及代码开源，但模型结构具有可复现性；未来工作值得探索在更复杂动态环境中的应用、多智能体模仿学习，以及与强化学习的进一步融合。
相关研究

1. Can a Robot Learn to Follow Instructions? (2023) 2. Flamingo: Visual Language Models for Few-Shot Learning (2022) 3. RT-2: Vision-Language-Action Models for Real-World Robot Control (2023) 4. VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training (2022) 5. Action Chunking with Latent Plans for Robotic Imitation Learning (2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问