NEW

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

Qiuyue Wang ,

Mingsheng Li ,

Jian Guan ,

Jinhui Ye ,

Sicheng Xie ,

Yitao Liu ,

Junhao Chen ,

Zhixuan Liang ,

Jie Zhang ,

Xintong Hu ,

Xuhong Huang ,

Pei Lin ,

Junyang Lin ,

Dayiheng Liu ,

Shuai Bai ,

Jingren Zhou ,

Jiazhao Zhang ,

Haoqi Yuan ,

Gengze Zhou ,

Hang Yin ,

Ye Wang ,

Yiyang Huang ,

Zixing Lei ,

Wujian Peng ,

Delin Chen ,

Yingming Zheng ,

Jingyang Fan ,

Xianwei Zhuang ,

Xin Zhou ,

Haoyang Li ,

Anzhe Chen ,

Tong Zhang ,

Xuejing Liu ,

Yuchong Sun ,

Ruizhe Chen ,

Zhaohai Li ,

Chenxu Lü ,

Zhibo Yang ,

Tao Yu ,

Xionghui Chen

热度 1087

2026年05月28日

简介

具身智能（Embodied Intelligence）以往常通过针对特定任务（如操作或导航）设计的专用模型来开展研究，导致能力彼此割裂，跨任务、跨环境乃至跨机器人本体的泛化能力十分有限。本文探讨了是否能够将异构的具身决策问题统一到一个视觉—语言—动作联合模型之中。为此，我们提出了Qwen-VLA——一种统一的具身基础模型，它在通义千问（Qwen）原有的视觉—语言建模架构（涵盖感知、理解与推理）基础上，进一步引入基于扩散变换器（DiT）的动作解码器，实现了对连续动作及运动轨迹的生成能力。Qwen-VLA采用大规模联合预训练范式，在涵盖机器人操作轨迹、人类第一人称示范视频、合成仿真数据、视觉—语言导航数据、以轨迹为中心的监督信号，以及辅助性的视觉—语言数据等多元数据源上进行训练。为适配多种机器人平台，我们提出“具身感知型提示条件机制”（embodiment-aware prompt conditioning），即通过机器人专属的文本描述，显式指定当前机器人的物理本体结构与控制协议。此外，我们将操作、导航与轨迹预测三类任务统一纳入“动作与轨迹联合预测”的框架之下，从而实现视觉定位、空间推理与连续动作生成能力在不同机器人形态、任务类型与环境场景之间的可迁移性。在操作、导航及轨迹预测等多类基准测试上的实验结果表明，Qwen-VLA展现出稳定的多任务性能，并在场景布局、背景、光照、物体配置乃至机器人本体发生变化时，均具备优异的分布外（out-of-distribution, OOD）泛化能力。具体而言，Qwen-VLA-Instruct在LIBERO基准上达到97.9%的准确率，在Simpler-WidowX上达73.7%，在RoboTwin-Easy/Hard上分别达86.1%/87.2%，在R2R上的对象成功率（OSR）达69.0%，在RxR上的成功率（SR）达59.6%，在真实世界ALOHA机器人实验中的平均OOD任务成功率高达76.9%，并在DOMINO动态操作任务上实现了26.6%的零样本（zero-shot）成功率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统具身智能研究依赖任务专用模型（如单独的导航或操作模型），导致能力碎片化、跨任务/环境/机器人本体泛化能力差。本文试图验证：能否将异构具身决策问题（操作、导航、轨迹预测等）统一于单个视觉-语言-动作（VLA）基础模型中，实现真正通用的具身智能。
关键思路

提出Qwen-VLA——首个基于Qwen多模态架构扩展的统一具身基础模型，核心创新在于：1）采用DiT（Diffusion Transformer）作为连续动作与轨迹生成的动作解码器，将离散语言建模自然延伸至高维连续控制空间；2）引入‘本体感知提示调制’（embodiment-aware prompt conditioning），通过机器人文本描述（如‘4-DOF WidowX机械臂，关节空间控制’）动态适配不同硬件；3）将操作、导航、轨迹预测统一为‘视觉-语言条件下的时空动作序列预测’框架，共享视觉接地、空间推理与动作生成表征。
其它亮点

• 大规模联合预训练：融合6类异构数据（真实机器人操作轨迹、人类第一视角演示、合成仿真、VLN导航、轨迹监督、辅助V-L数据），总规模超100万段轨迹；• 全面评测：在LIBERO（97.9%）、Simpler-WidowX（73.7%）、RoboTwin（86.1%/87.2%）、R2R/RxR（69.0% OSR / 59.6% SR）、真实ALOHA（76.9% OOD成功）、零样本DOMINO（26.6%）均达SOTA；• 开源承诺：论文明确宣布将发布模型权重、推理代码及本体适配工具链（截至2024年知识截止未开源，但已预告）；• 关键待研方向：DiT动作解码器的实时性优化、长程任务分解与规划注入、无监督本体自描述学习。
相关研究

1) RT-2 (Google, 2023)：将语言模型输出映射为离散动作token，缺乏连续轨迹建模；2) VoxPoser (MIT, 2023)：基于LLM+视觉扩散生成3D空间指令，非端到端动作生成；3) OpenVLA (Berkeley, 2024)：开源VLA模型，但采用多阶段微调且未支持跨形态本体提示；4) Act-Former (Meta, 2023)：视频-动作联合建模，未整合语言指令与多机器人适配；5) PaLM-E (Google, 2023)：视觉-语言-动作早期探索，但动作空间离散、未支持轨迹生成。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问