- 简介我们提出了一种潜在扩散模型,可以仅使用2D图像数据进行训练,用于生成3D场景。为了实现这一目标,我们首先设计了一个自编码器,将多视角图像映射到3D高斯斑点,并同时构建这些斑点的压缩潜在表示。然后,我们在潜在空间上训练多视角扩散模型,以学习高效的生成模型。这个流程不需要对象掩码或深度,并且适用于具有任意摄像机位置的复杂场景。我们在两个大规模复杂真实场景数据集MVImgNet和RealEstate10K上进行了仔细的实验。我们展示了我们的方法可以在仅0.2秒内生成3D场景,无论是从头开始,从单个输入视图还是从稀疏输入视图。它能够产生多样化和高质量的结果,同时比非潜在扩散模型和早期基于NeRF的生成模型运行快一个数量级。
- 图表
- 解决问题本论文旨在提出一种基于2D图像数据训练的3D场景潜在扩散模型,以解决在复杂场景下生成高质量3D场景的问题。
- 关键思路论文的关键思路是设计一个自编码器,将多视角图像映射到3D高斯斑点,并同时构建这些斑点的压缩潜在表示,然后在潜在空间上训练多视角扩散模型,以学习一种高效的生成模型。
- 其它亮点论文在两个大规模数据集上进行了仔细的实验,MVImgNet和RealEstate10K,并展示了其方法能够在0.2秒内生成高质量的3D场景,不需要物体掩模或深度信息,适用于任意相机位置的复杂场景。该方法运行速度比非潜在扩散模型和早期基于NeRF的生成模型快一个数量级,同时产生多样化和高质量的结果。
- 在这个领域中,最近的相关研究包括NeRF、Implicit View Synthesis和DeepSDF等。
沙发等你来抢
去评论
评论
沙发等你来抢