VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving

2024年07月09日
  • 简介
    在自动驾驶中,从野外观测中生成3D车辆资产至关重要。现有的图像到3D方法无法很好地解决这个问题,因为它们仅从图像RGB信息中学习生成,缺乏对野外车辆(如汽车型号、制造商等)的更深入理解。这导致它们处理遮挡或棘手视角的实际观测时,零样本预测能力较差。为了解决这个问题,在本文中,我们提出了VQA-Diff,这是一个新颖的框架,利用野外车辆图像为自动驾驶创建逼真的3D车辆资产。VQA-Diff利用从视觉问答(VQA)模型中的大型语言模型继承的现实世界知识,用于强大的零样本预测,以及扩散模型中丰富的图像先验知识用于结构和外观生成。特别是,我们利用多专家扩散模型策略生成结构信息,并采用主题驱动的结构控制生成机制来模拟外观信息。因此,不需要从真实世界中收集大规模的图像到3D车辆数据集,VQA-Diff仍具有强大的零样本图像到新视角生成能力。我们在各种数据集上进行实验,包括Pascal 3D+,Waymo和Objaverse,以展示VQA-Diff在质量和数量上均优于现有的最先进方法。
  • 图表
  • 解决问题
    该论文旨在解决从野外观察中生成3D车辆资产的问题,而现有的图像到3D方法无法很好地解决这个问题,因为它们仅从图像RGB信息学习生成,缺乏对野外车辆的深入理解,这导致它们的零样本预测能力较差。
  • 关键思路
    该论文提出了一种新的框架VQA-Diff,利用野外车辆图像创建逼真的3D车辆资产,通过Visual Question Answering(VQA)模型中继承的现实世界知识和Diffusion模型中的丰富图像先验知识来实现鲁棒的零样本预测。
  • 其它亮点
    论文使用了多个专家Diffusion模型策略来生成结构信息,并采用主题驱动的结构控制生成机制来建模外观信息。实验结果表明,VQA-Diff在各种数据集上的表现均优于现有的最先进方法。
  • 相关研究
    在这个领域中,最近的相关研究包括基于图像的3D物体重建、3D车辆生成和视觉问答等。其中一些相关研究的论文标题包括:《End-to-End Learning of 3D Scene Reconstruction from RGB-D Images》、《Learning to Generate 3D Cars with Convolutional Networks》和《A Joint Sequence Fusion Model for Visual Question Answering and Visual Grounding》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论