GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting

2024年04月30日
  • 简介
    我们提出了GS-LRM,这是一个可扩展的大型重建模型,可以在单个A100 GPU上从2-4个姿态稀疏图像中预测高质量的3D高斯基元,耗时0.23秒。我们的模型采用非常简单的基于transformer的架构;我们将输入的姿态图像进行拼接,将多视角图像令牌串联通过一系列transformer块,然后直接从这些令牌解码出每个像素的高斯参数,用于可微分渲染。与以前只能重建物体的LRM不同,通过预测每个像素的高斯函数,GS-LRM自然地处理具有大尺度和复杂度变化的场景。我们展示了我们的模型可以通过在Objaverse和RealEstate10K上进行训练来处理物体和场景捕捉。在两种情况下,该模型均显著优于最先进的基线模型。我们还展示了我们的模型在下游3D生成任务中的应用。我们的项目网页可在以下网址找到:https://sai-bi.github.io/project/gs-lrm/。
  • 图表
  • 解决问题
    本论文旨在提出一种新的可扩展的大型重建模型,能够从2-4个稀疏图像中预测高质量的3D高斯原语。同时,该模型能够自然地处理具有规模和复杂度巨大变化的场景。
  • 关键思路
    该论文提出了一种基于Transformer的简单架构,通过对输入的姿态图像进行拼接,将多视图图像token传递到一系列Transformer块中,直接从这些token解码出每个像素的高斯参数,以实现可微分渲染。
  • 其它亮点
    该模型在Objaverse和RealEstate10K数据集上进行了训练,能够在物体和场景捕捉方面表现出色。此外,该论文还展示了该模型在下游3D生成任务中的应用。论文附带有开源代码和项目网页。
  • 相关研究
    在这个领域中,最近的相关研究包括DeepSDF、Pixel2Mesh和OccNet等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论