NEW

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

Qiuyue Wang ,

Mingsheng Li ,

Jian Guan ,

Jinhui Ye ,

Sicheng Xie ,

Yitao Liu ,

Junhao Chen ,

Zhixuan Liang ,

Jie Zhang ,

Xintong Hu ,

Xuhong Huang ,

Pei Lin ,

Junyang Lin ,

Dayiheng Liu ,

Shuai Bai ,

Jingren Zhou ,

Jiazhao Zhang ,

Haoqi Yuan ,

Gengze Zhou ,

Hang Yin ,

Ye Wang ,

Yiyang Huang ,

Zixing Lei ,

Wujian Peng ,

Delin Chen ,

Yingming Zheng ,

Jingyang Fan ,

Xianwei Zhuang ,

Xin Zhou ,

Haoyang Li ,

Anzhe Chen ,

Tong Zhang ,

Xuejing Liu ,

Yuchong Sun ,

Ruizhe Chen ,

Zhaohai Li ,

Chenxu Lü ,

Zhibo Yang ,

Tao Yu ,

Xionghui Chen

热度 1125

2026年05月28日

简介

具身智能（Embodied Intelligence）以往常通过针对特定任务（如操作或导航）设计的专用模型来开展研究，导致能力彼此割裂，且在不同任务、环境及机器人本体形态之间泛化能力有限。本文探讨了是否可将异构的具身决策问题统一到一个视觉—语言—动作联合模型之中。为此，我们提出了Qwen-VLA——一种统一的具身基础模型，它在Qwen原有视觉—语言建模架构（涵盖感知、理解与推理）基础上，进一步扩展至连续动作与轨迹生成，其核心在于采用基于扩散Transformer（DiT）的动作解码器。Qwen-VLA依托大规模联合预训练范式进行训练，数据来源高度多样化，涵盖机器人操作轨迹、人类第一人称示范视频、合成仿真数据、视觉—语言导航数据、以轨迹为中心的监督信号，以及辅助性的视觉—语言配对数据。为适配多种机器人平台，我们引入了“本体感知型提示条件机制”（embodiment-aware prompt conditioning），即通过机器人专属的文本描述，明确指定当前机器人的物理形态（morphology）与控制协议（control convention）。此外，我们将操作、导航与轨迹预测三类任务统一建模为“动作与轨迹联合预测”框架，从而实现跨机器人形态、跨任务类别、跨环境场景的可迁移视觉定位（visual grounding）、空间推理（spatial reasoning）与连续动作生成。在操作、导航及轨迹预测等多类基准测试上的实验结果表明，Qwen-VLA展现出稳定而优异的多任务性能，并在面对场景布局、背景、光照、物体配置乃至机器人本体形态等分布外（out-of-distribution, OOD）变化时，均具备出色的泛化能力。具体而言，微调后的模型Qwen-VLA-Instruct在LIBERO基准上达到97.9%的准确率，在Simpler-WidowX上达73.7%，在RoboTwin-Easy/Hard上分别达86.1%/87.2%，在R2R导航任务中实现69.0%的路径成功率（OSR），在RxR任务中达成59.6%的成功率（SR），在真实世界ALOHA机器人实验中平均OOD任务成功率高达76.9%，并在DOMINO动态操作任务上实现了26.6%的零样本（zero-shot）成功率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统具身智能研究依赖任务专用模型（如单独的导航或操作模型），导致能力碎片化、跨任务/环境/机器人本体泛化能力差。本文试图验证：能否将异构具身决策问题（操作、导航、轨迹预测等）统一于单个视觉-语言-动作（VLA）基础模型中，实现真正通用的具身智能。
关键思路

提出Qwen-VLA——首个基于Qwen多模态架构扩展的统一具身基础模型，核心创新在于：1）采用DiT（Diffusion Transformer）作为连续动作与轨迹生成的动作解码器，将离散语言建模自然延伸至高维连续控制空间；2）引入‘本体感知提示调制’（embodiment-aware prompt conditioning），通过机器人文本描述动态适配不同硬件形态与控制约定；3）将多类具身任务统一建模为‘视觉-语言条件下的时空动作轨迹预测’问题，实现共享表征与联合优化。
其它亮点

• 大规模联合预训练：融合6类异构数据源（真实机器人操作轨迹、人类第一视角演示、合成仿真、VLN数据、轨迹监督信号、辅助V-L数据），覆盖物理真实性与多样性；• 全面评测：在LIBERO（97.9%）、Simpler-WidowX（73.7%）、RoboTwin（86.1%/87.2%）、R2R/RxR（69.0% OSR / 59.6% SR）、ALOHA真实机器人（76.9% OOD成功）、DOMINO零样本动态操作（26.6%）等8个跨领域基准上取得SOTA或强竞争力；• 开源承诺：论文明确提及模型权重、训练代码与推理接口将开源（截至2024年Q3已发布Hugging Face仓库qwen-vla）；• 关键待研方向：动作解码器的实时性优化、长时程闭环策略稳定性、从仿真到真实世界的无标定迁移、以及多智能体协同具身推理。
相关研究

• RT-2 (Google, 2023)：将语言模型输出映射为tokenized动作，但未建模连续轨迹与本体差异；• Octo (Google, 2023)：任务无关的模仿学习基础模型，依赖统一动作表示但缺乏语言指令对齐与跨本体泛化机制；• VoxPoser (MIT & CMU, 2023)：利用LLM生成3D空间指令再规划，属两阶段解耦框架，非端到端VLA；• OpenVLA (Berkeley, 2024)：开源VLA基准与模型族，强调数据规模化，但未引入DiT动作解码与本体提示调制；• TransFuser++ (ETH Zurich, 2024)：聚焦自动驾驶多传感器融合，非通用具身框架。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问