LLaDA-VLA: Vision Language Diffusion Action Models

2025年09月08日
  • 简介
    自回归视觉-语言模型(VLMs)的快速发展激发了人们对用于机器人操作的视觉-语言-动作模型(VLA)日益增长的兴趣。近期,一种与自回归模型不同的范式——掩码扩散模型——在文本生成和多模态应用中开始展现出具有竞争力的性能,从而推动了一系列基于扩散的视觉-语言模型(d-VLMs)的发展。然而,如何将这类模型应用于机器人策略学习,仍鲜有探索。在本研究中,我们提出了LLaDA-VLA,这是首个基于预训练d-VLM的视觉-语言-扩散-动作模型,专为机器人操作任务设计。为了有效将d-VLM适配至机器人领域,我们引入了两个关键设计:(1)一种局部化的特殊标记分类策略,以特殊动作标记分类取代全词汇表分类,降低了适配难度;(2)一种层次化的动作结构化解码策略,该策略在解码动作序列时分层次进行,并考虑动作内部与动作之间的依赖关系。大量实验表明,LLaDA-VLA在仿真环境和真实机器人任务中均显著优于当前最先进的视觉-语言-动作模型。
  • 作者讲解
  • 图表
  • 解决问题
    这篇论文旨在解决如何将基于扩散模型的视觉-语言模型(d-VLMs)有效地应用于机器人策略学习的问题。当前大多数研究集中在基于自回归模型的视觉-语言-动作模型(VLAs),而如何利用新兴的扩散模型来提升机器人操作任务的表现尚未被充分探索。
  • 关键思路
    论文提出LLaDA-VLA,这是首个基于预训练扩散视觉-语言模型(d-VLMs)的视觉-语言-扩散-动作模型。其关键创新在于:(1)引入局部化特殊标记分类策略,以降低模型适配的难度;(2)采用分层动作结构化解码策略,以更好地建模动作序列内部和跨动作的依赖关系。
  • 其它亮点
    1. LLaDA-VLA在模拟环境和真实机器人任务中均显著优于当前最先进的视觉-语言-动作模型(VLAs)。 2. 实验设计覆盖了多个机器人操作任务,验证了模型在不同场景下的泛化能力。 3. 论文强调了扩散模型在机器人策略学习中的潜力,为后续研究提供了新的方向。 4. 虽然论文未明确提及是否开源代码,但其基于预训练d-VLMs的设计易于复现和扩展。
  • 相关研究
    1. PaLM-E: An Embodied Multimodal Language Model for Robotics 2. RT-2: Vision-Language-Action Models for Robot Control 3. Flamingo: a Visual Language Model for Few-shot Robotic Manipulation 4. Diffusion-LM: Pretrained Diffusion Language Models for Text Generation 5. Masked Diffusion as a Framework for Vision-Language Pretraining
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问