3D-VLA: A 3D Vision-Language-Action Generative World Model

2024年03月14日
  • 简介
    最近的视觉-语言-动作(VLA)模型依赖于二维输入,缺乏与更广泛的三维物理世界的整合。此外,它们通过学习从感知到动作的直接映射来执行动作预测,忽略了世界的广泛动态和动作与动态之间的关系。相比之下,人类拥有描绘未来情景的想象力的世界模型,以相应地规划行动。为此,我们提出了3D-VLA,通过引入一个新的具有身体基础的基础模型系列,将3D感知、推理和行动无缝地连接起来,形成一个生成世界模型。具体而言,3D-VLA建立在基于3D的大型语言模型(LLM)之上,并引入一组交互令牌来与具体环境互动。此外,为了将生成能力注入模型,我们训练了一系列具有体验性扩散模型,并将它们对齐到LLM中,以预测目标图像和点云。为了训练我们的3D-VLA,我们从现有的机器人数据集中提取了大量的与3D相关的信息,策划了一个大规模的3D具身化指令数据集。我们在保留数据集上的实验表明,3D-VLA显著提高了具身化环境中的推理、多模式生成和规划能力,展示了它在实际应用中的潜力。
  • 图表
  • 解决问题
    论文旨在解决当前视觉-语言-动作(VLA)模型缺乏与三维物理世界的整合,以及动作预测忽略了世界动态和动作与动态之间的关系的问题。同时,论文试图通过引入生成世界模型来建立无缝链接三维感知、推理和动作的基础模型,以提高理解、多模态生成和规划能力。
  • 关键思路
    论文提出了一种名为3D-VLA的模型,该模型基于基于三维的大型语言模型(LLM),引入一组交互令牌来与具体环境进行交互,通过训练一系列具有生成能力的体态扩散模型并将其与LLM对齐来实现生成能力,从而提高模型的推理、多模态生成和规划能力。
  • 其它亮点
    论文通过提出3D-VLA模型来解决当前VLA模型的局限性,并通过构建大规模的3D体态指令数据集来训练模型。实验结果表明,3D-VLA在理解、多模态生成和规划能力方面显著提高,具有在实际应用中的潜力。
  • 相关研究
    在相关研究方面,最近的一些研究包括《Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks》、《EmbodiedQA: Bridging the Gap between Vision and Language Navigation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论