Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models

简介

我们提出了一种潜在扩散模型，可以仅使用2D图像数据进行训练，用于生成3D场景。为了实现这一目标，我们首先设计了一个自编码器，将多视角图像映射到3D高斯斑点，并同时构建这些斑点的压缩潜在表示。然后，我们在潜在空间上训练多视角扩散模型，以学习高效的生成模型。这个流程不需要对象掩码或深度，并且适用于具有任意摄像机位置的复杂场景。我们在两个大规模复杂真实场景数据集MVImgNet和RealEstate10K上进行了仔细的实验。我们展示了我们的方法可以在仅0.2秒内生成3D场景，无论是从头开始，从单个输入视图还是从稀疏输入视图。它能够产生多样化和高质量的结果，同时比非潜在扩散模型和早期基于NeRF的生成模型运行快一个数量级。
图表
解决问题

本论文旨在提出一种基于2D图像数据训练的3D场景潜在扩散模型，以解决在复杂场景下生成高质量3D场景的问题。
关键思路

论文的关键思路是设计一个自编码器，将多视角图像映射到3D高斯斑点，并同时构建这些斑点的压缩潜在表示，然后在潜在空间上训练多视角扩散模型，以学习一种高效的生成模型。
其它亮点

论文在两个大规模数据集上进行了仔细的实验，MVImgNet和RealEstate10K，并展示了其方法能够在0.2秒内生成高质量的3D场景，不需要物体掩模或深度信息，适用于任意相机位置的复杂场景。该方法运行速度比非潜在扩散模型和早期基于NeRF的生成模型快一个数量级，同时产生多样化和高质量的结果。
相关研究

在这个领域中，最近的相关研究包括NeRF、Implicit View Synthesis和DeepSDF等。

Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models

评论