WorldVLA: Towards Autoregressive Action World Model

向作者提问

NEW

简介

我们提出了WorldVLA，这是一种自回归动作世界模型，统一了动作与图像的理解与生成。WorldVLA在一个统一框架中融合了视觉-语言-动作（VLA）模型与世界模型。该世界模型通过结合动作和图像理解来预测未来的图像，旨在学习环境中的潜在物理规律，从而提升动作的生成效果。与此同时，动作模型则根据图像观测结果生成后续动作，帮助视觉理解，并反过来促进世界模型的视觉生成。我们证明了WorldVLA在性能上优于独立的动作模型和世界模型，突出了两者之间的相互增强作用。此外，我们发现，在以自回归方式生成动作序列时，动作模型的性能会出现下降。这一现象可归因于模型在动作预测方面的泛化能力有限，导致先前动作中的错误传播到后续动作中。为了解决这一问题，我们提出了一种注意力掩码策略，在生成当前动作时有选择地屏蔽之前的部分动作信息，该策略在动作块生成任务中表现出显著的性能提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决动作生成与图像理解之间的割裂问题，旨在通过统一视觉-语言-动作（VLA）模型和世界模型来提升动作序列生成的质量和稳定性。同时验证了在自回归动作生成过程中误差传播的问题，并提出解决方案。
关键思路

将动作模型和世界模型集成在一个框架中，通过相互增强实现更准确的动作生成和图像预测；提出一种注意力掩码策略，选择性屏蔽先前动作信息以减少误差累积，从而显著提升长序列动作生成的性能。
其它亮点

1. 提出了WorldVLA这一统一框架，在同一系统中融合动作生成与图像预测任务 2. 揭示了自回归动作生成中的误差传播问题，并通过注意力掩码策略有效缓解 3. 实验表明WorldVLA优于独立的VLA模型和世界模型 4. 强调了动作与视觉之间协同建模的重要性
相关研究

1. Planning with Vision-and-Language-Action Models in the Loop (2023) 2. VidPLM: Vision-and-Language Pretrained Model for Video Grounded Dialogue Systems (2022) 3. World Models (2018) 4. Transformer-based World Models for Visual and Action Sequence Modeling (2021) 5. Action-Aware Scene Understanding through Vision-Language-Action Pretraining (2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问