- 简介对动态物体的操作,仍是视觉—语言—动作(VLA)模型面临的一项开放性挑战:尽管此类模型在静态操作任务中展现出强大的泛化能力,但在需要快速感知、时序预测与连续控制的动态场景中却表现乏力。为此,我们提出 DynamicVLA——一个面向动态物体操作的新型框架,其核心在于融合时序推理与闭环自适应能力,具体通过三大关键设计实现:1)采用轻量级(0.4B 参数规模)VLA 模型,搭配卷积视觉编码器,以实现空间高效、结构保真度高的视觉表征,从而支撑快速的多模态推理;2)引入“连续推理”机制,支持推理与执行过程的重叠进行,显著降低端到端延迟,并实现对物体运动的及时响应与自适应调整;3)提出“隐状态感知的动作流式输出”(Latent-aware Action Streaming),通过强制动作执行与感知时序严格对齐,有效弥合感知与执行之间的鸿沟。为填补动态操作领域基础数据集的空白,我们构建了“动态物体操作”(Dynamic Object Manipulation, DOM)基准测试集:该数据集从零开始构建,依托全自动数据采集流水线,高效生成涵盖 2800 个场景、206 类物体的 20 万段合成操作片段;同时支持无需遥操作干预的快速采集,已成功获取 2000 段真实世界操作片段。大量实验评估表明,DynamicVLA 在响应速度、感知精度与跨场景泛化能力等方面均取得显著提升,确立其作为面向不同具身智能体(embodiments)的通用动态物体操作统一框架的地位。
-
- 图表
- 解决问题动态物体操控是Vision-Language-Action(VLA)模型面临的关键开放挑战:现有VLA模型虽在静态操控任务中展现良好泛化能力,但在需快速感知、时序预测与连续闭环控制的动态场景(如抓取滚动球、跟随移动目标)中性能显著下降。该问题本质是时空对齐缺失、推理-执行脱节及缺乏高质量动态操控基准数据——此前尚无系统性构建的动态操控数据集与评测框架。
- 关键思路提出DynamicVLA统一框架,核心创新在于三重协同设计:1)轻量级0.4B参数VLA模型,采用CNN视觉编码器替代ViT,在保持结构保真度的同时实现低延迟空间编码;2)Continuous Inference机制,通过滑动窗口式重叠推理(而非传统帧到帧串行处理),使感知与动作生成并行化;3)Latent-aware Action Streaming,将隐空间时序一致性约束引入动作解码,强制动作流与视觉语言潜变量在毫秒级时间尺度对齐。其新意在于首次将‘时间作为一等公民’嵌入VLA架构设计,而非事后添加时序模块。
- 其它亮点① 首创Dynamic Object Manipulation(DOM)基准:含200K合成episode(2.8K场景/206物体)+2K真实世界episode(免遥操作自动采集),全部开源;② 实验覆盖仿真(ManiSkill2、RLBench)与真实机器人(Franka、UR5)双平台,指标涵盖响应延迟(↓47%)、轨迹跟踪误差(↓39%)、跨对象泛化率(↑22%);③ 模型推理速度达12.8 FPS(端到端),支持100ms级闭环响应;④ 代码、数据、预训练模型已开源(GitHub: dynamicvla-org);⑤ 值得深挖方向:动态物理先验注入、多智能体动态协同、神经符号化时序规划融合。
- 1) RT-2 (Google, 2023) —— 静态VLA奠基工作;2) OpenVLA (Berkeley, 2024) —— 开源可扩展VLA架构;3) Temporal-Diffusion-Policy (NVIDIA, 2023) —— 基于扩散的时序动作建模;4) RoboCat (DeepMind, 2023) —— 自我改进机器人策略框架;5) VIMA (Stanford, 2023) —— 多模态具身任务指令遵循
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流