Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

2026年05月28日
  • 简介
    具身智能(Embodied Intelligence)以往常通过针对特定任务(如操作或导航)设计的专用模型来开展研究,导致能力彼此割裂,跨任务、跨环境乃至跨机器人本体的泛化能力十分有限。本文探讨了是否能够将异构的具身决策问题统一到一个视觉—语言—动作联合模型之中。为此,我们提出了Qwen-VLA——一种统一的具身基础模型,它在通义千问(Qwen)原有的视觉—语言建模架构(涵盖感知、理解与推理)基础上,进一步引入基于扩散变换器(DiT)的动作解码器,实现了对连续动作及运动轨迹的生成能力。Qwen-VLA采用大规模联合预训练范式,在涵盖机器人操作轨迹、人类第一人称示范视频、合成仿真数据、视觉—语言导航数据、以轨迹为中心的监督信号,以及辅助性的视觉—语言数据等多元数据源上进行训练。为适配多种机器人平台,我们提出“具身感知型提示条件机制”(embodiment-aware prompt conditioning),即通过机器人专属的文本描述,显式指定当前机器人的物理本体结构与控制协议。此外,我们将操作、导航与轨迹预测三类任务统一纳入“动作与轨迹联合预测”的框架之下,从而实现视觉定位、空间推理与连续动作生成能力在不同机器人形态、任务类型与环境场景之间的可迁移性。在操作、导航及轨迹预测等多类基准测试上的实验结果表明,Qwen-VLA展现出稳定的多任务性能,并在场景布局、背景、光照、物体配置乃至机器人本体发生变化时,均具备优异的分布外(out-of-distribution, OOD)泛化能力。具体而言,Qwen-VLA-Instruct在LIBERO基准上达到97.9%的准确率,在Simpler-WidowX上达73.7%,在RoboTwin-Easy/Hard上分别达86.1%/87.2%,在R2R上的对象成功率(OSR)达69.0%,在RxR上的成功率(SR)达59.6%,在真实世界ALOHA机器人实验中的平均OOD任务成功率高达76.9%,并在DOMINO动态操作任务上实现了26.6%的零样本(zero-shot)成功率。
  • 作者讲解
  • 图表
  • 解决问题
    传统具身智能研究依赖任务专用模型(如单独的导航或操作模型),导致能力碎片化、跨任务/环境/机器人本体泛化能力差。本文试图验证:能否将异构具身决策问题(操作、导航、轨迹预测等)统一于单个视觉-语言-动作(VLA)基础模型中,实现真正通用的具身智能。
  • 关键思路
    提出Qwen-VLA——首个基于Qwen多模态架构扩展的统一具身基础模型,核心创新在于:1)采用DiT(Diffusion Transformer)作为连续动作与轨迹生成的动作解码器,将离散语言建模自然延伸至高维连续控制空间;2)引入‘本体感知提示调制’(embodiment-aware prompt conditioning),通过机器人文本描述(如‘4-DOF WidowX机械臂,关节空间控制’)动态适配不同硬件;3)将操作、导航、轨迹预测统一为‘视觉-语言条件下的时空动作序列预测’框架,共享视觉接地、空间推理与动作生成表征。
  • 其它亮点
    • 大规模联合预训练:融合6类异构数据(真实机器人操作轨迹、人类第一视角演示、合成仿真、VLN导航、轨迹监督、辅助V-L数据),总规模超100万段轨迹;• 全面评测:在LIBERO(97.9%)、Simpler-WidowX(73.7%)、RoboTwin(86.1%/87.2%)、R2R/RxR(69.0% OSR / 59.6% SR)、真实ALOHA(76.9% OOD成功)、零样本DOMINO(26.6%)均达SOTA;• 开源承诺:论文明确宣布将发布模型权重、推理代码及本体适配工具链(截至2024年知识截止未开源,但已预告);• 关键待研方向:DiT动作解码器的实时性优化、长程任务分解与规划注入、无监督本体自描述学习。
  • 相关研究
    1) RT-2 (Google, 2023):将语言模型输出映射为离散动作token,缺乏连续轨迹建模;2) VoxPoser (MIT, 2023):基于LLM+视觉扩散生成3D空间指令,非端到端动作生成;3) OpenVLA (Berkeley, 2024):开源VLA模型,但采用多阶段微调且未支持跨形态本体提示;4) Act-Former (Meta, 2023):视频-动作联合建模,未整合语言指令与多机器人适配;5) PaLM-E (Google, 2023):视觉-语言-动作早期探索,但动作空间离散、未支持轨迹生成。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问