MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation

简介

我们提出了MVD-Fusion：一种通过生成多视角一致的RGB-D图像进行单视角3D推断的方法。虽然最近的3D推断方法倡导学习新视角的生成模型，但这些生成结果并非3D一致，需要进行蒸馏过程才能生成3D输出。相反，我们将3D推断任务直接转化为生成相互一致的多个视角，并基于深度推断提供一种实施此一致性的机制。具体而言，我们训练一个去噪扩散模型，给定单个RGB输入图像生成多视角RGB-D图像，并利用（中间嘈杂的）深度估计来获得基于投影的条件，以维护多视角一致性。我们使用大规模合成数据集Obajverse以及包含通用摄像机视角的真实世界CO3D数据集来训练我们的模型。我们证明了我们的方法可以产生比最近的最先进技术更准确的合成结果，包括基于蒸馏的3D推断和先前的多视角生成方法。我们还评估了我们的多视角深度预测所引起的几何形状，并发现它比其他直接3D推断方法产生更准确的表示。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在通过生成多视一致的RGB-D图像来进行单视角3D推断。相比于当前的3D推断方法，本文的方法能够更好地保持3D一致性。
关键思路

本文的关键思路是使用去噪扩散模型来生成多视RGB-D图像，并利用中间的噪声深度估计来维持多视一致性。
其它亮点

本文使用了大规模合成数据集Obajverse和真实世界数据集CO3D进行训练和评估。实验结果表明，相比于其他最先进的方法，本文的方法能够生成更准确的合成图像，并且能够更好地表示几何结构。
相关研究

最近在这个领域中，还有一些相关的研究，例如Distillation-based 3D inference和Prior multi-view generation methods。

MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation

提问交流

提问交流