WorldVLA: Towards Autoregressive Action World Model

2025年06月26日
  • 简介
    我们提出了WorldVLA,这是一种自回归动作世界模型,统一了动作与图像的理解与生成。WorldVLA在一个统一框架中融合了视觉-语言-动作(VLA)模型与世界模型。该世界模型通过结合动作和图像理解来预测未来的图像,旨在学习环境中的潜在物理规律,从而提升动作的生成效果。与此同时,动作模型则根据图像观测结果生成后续动作,帮助视觉理解,并反过来促进世界模型的视觉生成。我们证明了WorldVLA在性能上优于独立的动作模型和世界模型,突出了两者之间的相互增强作用。此外,我们发现,在以自回归方式生成动作序列时,动作模型的性能会出现下降。这一现象可归因于模型在动作预测方面的泛化能力有限,导致先前动作中的错误传播到后续动作中。为了解决这一问题,我们提出了一种注意力掩码策略,在生成当前动作时有选择地屏蔽之前的部分动作信息,该策略在动作块生成任务中表现出显著的性能提升。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决动作生成与图像理解之间的割裂问题,旨在通过统一视觉-语言-动作(VLA)模型和世界模型来提升动作序列生成的质量和稳定性。同时验证了在自回归动作生成过程中误差传播的问题,并提出解决方案。
  • 关键思路
    将动作模型和世界模型集成在一个框架中,通过相互增强实现更准确的动作生成和图像预测;提出一种注意力掩码策略,选择性屏蔽先前动作信息以减少误差累积,从而显著提升长序列动作生成的性能。
  • 其它亮点
    1. 提出了WorldVLA这一统一框架,在同一系统中融合动作生成与图像预测任务 2. 揭示了自回归动作生成中的误差传播问题,并通过注意力掩码策略有效缓解 3. 实验表明WorldVLA优于独立的VLA模型和世界模型 4. 强调了动作与视觉之间协同建模的重要性
  • 相关研究
    1. Planning with Vision-and-Language-Action Models in the Loop (2023) 2. VidPLM: Vision-and-Language Pretrained Model for Video Grounded Dialogue Systems (2022) 3. World Models (2018) 4. Transformer-based World Models for Visual and Action Sequence Modeling (2021) 5. Action-Aware Scene Understanding through Vision-Language-Action Pretraining (2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问