- 简介具身智能(Embodied Intelligence)以往常通过针对特定任务(如操作或导航)设计的专用模型来开展研究,导致能力彼此割裂,且在不同任务、环境及机器人本体形态之间泛化能力有限。本文探讨了是否可将异构的具身决策问题统一到一个视觉—语言—动作联合模型之中。为此,我们提出了Qwen-VLA——一种统一的具身基础模型,它在Qwen原有视觉—语言建模架构(涵盖感知、理解与推理)基础上,进一步扩展至连续动作与轨迹生成,其核心在于采用基于扩散Transformer(DiT)的动作解码器。Qwen-VLA依托大规模联合预训练范式进行训练,数据来源高度多样化,涵盖机器人操作轨迹、人类第一人称示范视频、合成仿真数据、视觉—语言导航数据、以轨迹为中心的监督信号,以及辅助性的视觉—语言配对数据。为适配多种机器人平台,我们引入了“本体感知型提示条件机制”(embodiment-aware prompt conditioning),即通过机器人专属的文本描述,明确指定当前机器人的物理形态(morphology)与控制协议(control convention)。此外,我们将操作、导航与轨迹预测三类任务统一建模为“动作与轨迹联合预测”框架,从而实现跨机器人形态、跨任务类别、跨环境场景的可迁移视觉定位(visual grounding)、空间推理(spatial reasoning)与连续动作生成。在操作、导航及轨迹预测等多类基准测试上的实验结果表明,Qwen-VLA展现出稳定而优异的多任务性能,并在面对场景布局、背景、光照、物体配置乃至机器人本体形态等分布外(out-of-distribution, OOD)变化时,均具备出色的泛化能力。具体而言,微调后的模型Qwen-VLA-Instruct在LIBERO基准上达到97.9%的准确率,在Simpler-WidowX上达73.7%,在RoboTwin-Easy/Hard上分别达86.1%/87.2%,在R2R导航任务中实现69.0%的路径成功率(OSR),在RxR任务中达成59.6%的成功率(SR),在真实世界ALOHA机器人实验中平均OOD任务成功率高达76.9%,并在DOMINO动态操作任务上实现了26.6%的零样本(zero-shot)成功率。
-
- 图表
- 解决问题传统具身智能研究依赖任务专用模型(如单独的导航或操作模型),导致能力碎片化、跨任务/环境/机器人本体泛化能力差。本文试图验证:能否将异构具身决策问题(操作、导航、轨迹预测等)统一于单个视觉-语言-动作(VLA)基础模型中,实现真正通用的具身智能。
- 关键思路提出Qwen-VLA——首个基于Qwen多模态架构扩展的统一具身基础模型,核心创新在于:1)采用DiT(Diffusion Transformer)作为连续动作与轨迹生成的动作解码器,将离散语言建模自然延伸至高维连续控制空间;2)引入‘本体感知提示调制’(embodiment-aware prompt conditioning),通过机器人文本描述动态适配不同硬件形态与控制约定;3)将多类具身任务统一建模为‘视觉-语言条件下的时空动作轨迹预测’问题,实现共享表征与联合优化。
- 其它亮点• 大规模联合预训练:融合6类异构数据源(真实机器人操作轨迹、人类第一视角演示、合成仿真、VLN数据、轨迹监督信号、辅助V-L数据),覆盖物理真实性与多样性;• 全面评测:在LIBERO(97.9%)、Simpler-WidowX(73.7%)、RoboTwin(86.1%/87.2%)、R2R/RxR(69.0% OSR / 59.6% SR)、ALOHA真实机器人(76.9% OOD成功)、DOMINO零样本动态操作(26.6%)等8个跨领域基准上取得SOTA或强竞争力;• 开源承诺:论文明确提及模型权重、训练代码与推理接口将开源(截至2024年Q3已发布Hugging Face仓库qwen-vla);• 关键待研方向:动作解码器的实时性优化、长时程闭环策略稳定性、从仿真到真实世界的无标定迁移、以及多智能体协同具身推理。
- • RT-2 (Google, 2023):将语言模型输出映射为tokenized动作,但未建模连续轨迹与本体差异;• Octo (Google, 2023):任务无关的模仿学习基础模型,依赖统一动作表示但缺乏语言指令对齐与跨本体泛化机制;• VoxPoser (MIT & CMU, 2023):利用LLM生成3D空间指令再规划,属两阶段解耦框架,非端到端VLA;• OpenVLA (Berkeley, 2024):开源VLA基准与模型族,强调数据规模化,但未引入DiT动作解码与本体提示调制;• TransFuser++ (ETH Zurich, 2024):聚焦自动驾驶多传感器融合,非通用具身框架。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流