Envision3D: One Image to 3D with Anchor Views Interpolation

简介

我们提出了一种名为Envision3D的新方法，可以从一张单独的图片高效生成高质量的3D内容。最近从扩散模型生成的多视角图像中提取3D内容的方法显示出了巨大的潜力。然而，对于扩散模型来说，生成密集的多视角一致的图像仍然具有挑战性，这对于3D内容提取的质量至关重要。为了解决这个问题，我们提出了一种新的级联扩散框架，将具有挑战性的密集视图生成任务分解为两个可处理的阶段，即锚定视图生成和锚定视图插值。在第一阶段中，我们训练图像扩散模型，以在图像-法向量对的条件下生成全局一致的锚定视图。随后，利用我们在连续的多视角图像上微调的视频扩散模型，对先前的锚定视图进行插值，生成额外的密集视图。这个框架产生了密集的、多视角一致的图像，提供了全面的3D信息。为了进一步提高总体的生成质量，我们引入了一种粗到细的采样策略，用于从生成的密集图像中稳健地提取带纹理的网格。广泛的实验表明，我们的方法能够生成高质量的3D内容，无论是在纹理还是几何方面，都超过了以前的图像到3D基线方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在提出一种从单张图像高效生成高质量3D内容的方法。具体而言，解决了扩散模型生成稠密多视角一致图像的挑战，以提高3D内容提取的质量。
关键思路

论文提出了一种级联扩散框架，将稠密视角生成任务分解为锚定视角生成和锚定视角插值两个可处理的阶段。此外，还引入了粗到细的采样策略以提高重建算法的鲁棒性。
其它亮点

论文使用了图像扩散模型和视频扩散模型，生成了高质量的3D内容。实验结果表明，该方法在纹理和几何方面都具有优异的表现，超过了之前的基于图像到3D的基线方法。
相关研究

最近的相关研究包括使用多视角图像进行3D内容提取，如DeepSDF和Pixel2Mesh等。

Envision3D: One Image to 3D with Anchor Views Interpolation

提问交流

提问交流