Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models

2024年06月18日
  • 简介
    我们提出了一种潜在扩散模型,可以仅使用2D图像数据进行训练,用于生成3D场景。为了实现这一目标,我们首先设计了一个自编码器,将多视角图像映射到3D高斯斑点,并同时构建这些斑点的压缩潜在表示。然后,我们在潜在空间上训练多视角扩散模型,以学习高效的生成模型。这个流程不需要对象掩码或深度,并且适用于具有任意摄像机位置的复杂场景。我们在两个大规模复杂真实场景数据集MVImgNet和RealEstate10K上进行了仔细的实验。我们展示了我们的方法可以在仅0.2秒内生成3D场景,无论是从头开始,从单个输入视图还是从稀疏输入视图。它能够产生多样化和高质量的结果,同时比非潜在扩散模型和早期基于NeRF的生成模型运行快一个数量级。
  • 图表
  • 解决问题
    本论文旨在提出一种基于2D图像数据训练的3D场景潜在扩散模型,以解决在复杂场景下生成高质量3D场景的问题。
  • 关键思路
    论文的关键思路是设计一个自编码器,将多视角图像映射到3D高斯斑点,并同时构建这些斑点的压缩潜在表示,然后在潜在空间上训练多视角扩散模型,以学习一种高效的生成模型。
  • 其它亮点
    论文在两个大规模数据集上进行了仔细的实验,MVImgNet和RealEstate10K,并展示了其方法能够在0.2秒内生成高质量的3D场景,不需要物体掩模或深度信息,适用于任意相机位置的复杂场景。该方法运行速度比非潜在扩散模型和早期基于NeRF的生成模型快一个数量级,同时产生多样化和高质量的结果。
  • 相关研究
    在这个领域中,最近的相关研究包括NeRF、Implicit View Synthesis和DeepSDF等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论