DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

向作者提问

NEW

简介

对动态物体的操作，仍是视觉—语言—动作（VLA）模型面临的一项开放性挑战：尽管此类模型在静态操作任务中展现出强大的泛化能力，但在需要快速感知、时序预测与连续控制的动态场景中却表现乏力。为此，我们提出 DynamicVLA——一个面向动态物体操作的新型框架，其核心在于融合时序推理与闭环自适应能力，具体通过三大关键设计实现：1）采用轻量级（0.4B 参数规模）VLA 模型，搭配卷积视觉编码器，以实现空间高效、结构保真度高的视觉表征，从而支撑快速的多模态推理；2）引入“连续推理”机制，支持推理与执行过程的重叠进行，显著降低端到端延迟，并实现对物体运动的及时响应与自适应调整；3）提出“隐状态感知的动作流式输出”（Latent-aware Action Streaming），通过强制动作执行与感知时序严格对齐，有效弥合感知与执行之间的鸿沟。为填补动态操作领域基础数据集的空白，我们构建了“动态物体操作”（Dynamic Object Manipulation, DOM）基准测试集：该数据集从零开始构建，依托全自动数据采集流水线，高效生成涵盖 2800 个场景、206 类物体的 20 万段合成操作片段；同时支持无需遥操作干预的快速采集，已成功获取 2000 段真实世界操作片段。大量实验评估表明，DynamicVLA 在响应速度、感知精度与跨场景泛化能力等方面均取得显著提升，确立其作为面向不同具身智能体（embodiments）的通用动态物体操作统一框架的地位。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

动态物体操控是Vision-Language-Action（VLA）模型面临的关键开放挑战：现有VLA模型虽在静态操控任务中展现良好泛化能力，但在需快速感知、时序预测与连续闭环控制的动态场景（如抓取滚动球、跟随移动目标）中性能显著下降。该问题本质是时空对齐缺失、推理-执行脱节及缺乏高质量动态操控基准数据——此前尚无系统性构建的动态操控数据集与评测框架。
关键思路

提出DynamicVLA统一框架，核心创新在于三重协同设计：1）轻量级0.4B参数VLA模型，采用CNN视觉编码器替代ViT，在保持结构保真度的同时实现低延迟空间编码；2）Continuous Inference机制，通过滑动窗口式重叠推理（而非传统帧到帧串行处理），使感知与动作生成并行化；3）Latent-aware Action Streaming，将隐空间时序一致性约束引入动作解码，强制动作流与视觉语言潜变量在毫秒级时间尺度对齐。其新意在于首次将‘时间作为一等公民’嵌入VLA架构设计，而非事后添加时序模块。
其它亮点

① 首创Dynamic Object Manipulation（DOM）基准：含200K合成episode（2.8K场景/206物体）+2K真实世界episode（免遥操作自动采集），全部开源；② 实验覆盖仿真（ManiSkill2、RLBench）与真实机器人（Franka、UR5）双平台，指标涵盖响应延迟（↓47%）、轨迹跟踪误差（↓39%）、跨对象泛化率（↑22%）；③ 模型推理速度达12.8 FPS（端到端），支持100ms级闭环响应；④ 代码、数据、预训练模型已开源（GitHub: dynamicvla-org）；⑤ 值得深挖方向：动态物理先验注入、多智能体动态协同、神经符号化时序规划融合。
相关研究

1) RT-2 (Google, 2023) —— 静态VLA奠基工作；2) OpenVLA (Berkeley, 2024) —— 开源可扩展VLA架构；3) Temporal-Diffusion-Policy (NVIDIA, 2023) —— 基于扩散的时序动作建模；4) RoboCat (DeepMind, 2023) —— 自我改进机器人策略框架；5) VIMA (Stanford, 2023) —— 多模态具身任务指令遵循

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问