LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation

2024年02月07日
  • 简介
    3D内容的创建在质量和速度方面都取得了显著进展。尽管当前的前向模型可以在几秒钟内生成3D对象,但其分辨率受到训练期间所需的密集计算的限制。本文介绍了一种新颖的框架——大型多视角高斯模型(LGM),旨在从文本提示或单视图图像生成高分辨率的3D模型。我们的关键见解有两个方面:1)3D表示:我们提出了多视角高斯特征作为一种高效而强大的表示方法,然后将其融合在一起进行可微分渲染。2)3D骨干:我们提出了一种非对称U-Net作为高吞吐量的骨干,它可以通过利用多视角扩散模型从文本或单视图图像输入中产生多视角图像。广泛的实验证明了我们方法的高保真度和高效性。值得注意的是,我们保持了在5秒内生成3D对象的快速速度,同时将训练分辨率提高到512,从而实现了高分辨率的3D内容生成。
  • 图表
  • 解决问题
    论文旨在提出一种新的框架,通过文本提示或单视图图像生成高分辨率的3D模型,同时保持生成速度快的特点。
  • 关键思路
    该论文提出了Large Multi-View Gaussian Model (LGM)框架,通过多视角高斯特征作为有效且强大的表示,并将其融合起来进行可微分渲染,同时使用不对称U-Net作为高吞吐量的3D骨干网络,从而实现高分辨率3D内容生成。
  • 其它亮点
    论文在多个数据集上进行了广泛的实验,证明了该方法的高保真度和高效性。该方法可以在5秒内生成3D对象,同时将训练分辨率提升到512,从而实现高分辨率3D内容生成。此外,该论文提供了开源代码。
  • 相关研究
    最近的相关研究包括:《Neural 3D Mesh Renderer》、《Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images》、《Learning to Generate 3D Mesh Models from RGB-D Scans》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论