GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image

2024年03月18日
  • 简介
    我们介绍了GeoWizard,这是一个新的生成式基础模型,旨在从单张图像中估计几何属性,例如深度和法线。虽然在这个领域已经进行了大量的研究,但公开可用数据集的低多样性和质量差限制了研究的进展。因此,先前的工作要么受限于有限的场景,要么无法捕捉几何细节。在本文中,我们证明相对于传统的判别式模型(例如CNN和Transformer),生成式模型可以有效地解决本质上不适定的问题。我们进一步展示,利用扩散先验可以显著提高泛化能力、细节保留和资源利用效率。具体而言,我们将原始的稳定扩散模型扩展到联合预测深度和法线,允许两种表示之间的相互信息交换和高一致性。更重要的是,我们提出了一种简单而有效的策略,将各种场景的复杂数据分布分隔成不同的子分布。这种策略使我们的模型能够识别不同的场景布局,以极高的保真度捕捉3D几何。GeoWizard为零样本深度和法线预测设立了新的基准,显著增强了许多下游应用,例如3D重建、2D内容创建和新视角合成。
  • 图表
  • 解决问题
    本论文旨在解决从单个图像中估计几何属性(如深度和法向量)的问题,而当前公开数据集的多样性和质量限制了这一领域的进展。
  • 关键思路
    与传统的判别模型(如CNN和Transformer)不同,本论文提出使用生成模型来有效地解决本质上不适定的问题,并通过引入扩散先验来显著提高泛化能力、细节保留和资源利用效率。
  • 其它亮点
    本论文提出了一种简单而有效的策略,将各种场景的复杂数据分布分成不同的子分布,从而使模型能够识别不同的场景布局,以惊人的保真度捕获3D几何形状。实验表明,GeoWizard在零样本深度和法向量预测方面取得了新的最佳效果,极大地增强了许多下游应用,如3D重建、2D内容创建和新视角合成。
  • 相关研究
    最近的相关研究包括:《Monocular Depth Estimation with Hierarchical Fusion of Dilated Convolutions》、《Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture》、《High Quality Monocular Depth Estimation via Transfer Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论