- 简介我们提出了GS-LRM,这是一个可扩展的大型重建模型,可以在单个A100 GPU上从2-4个姿态稀疏图像中预测高质量的3D高斯基元,耗时0.23秒。我们的模型采用非常简单的基于transformer的架构;我们将输入的姿态图像进行拼接,将多视角图像令牌串联通过一系列transformer块,然后直接从这些令牌解码出每个像素的高斯参数,用于可微分渲染。与以前只能重建物体的LRM不同,通过预测每个像素的高斯函数,GS-LRM自然地处理具有大尺度和复杂度变化的场景。我们展示了我们的模型可以通过在Objaverse和RealEstate10K上进行训练来处理物体和场景捕捉。在两种情况下,该模型均显著优于最先进的基线模型。我们还展示了我们的模型在下游3D生成任务中的应用。我们的项目网页可在以下网址找到:https://sai-bi.github.io/project/gs-lrm/。
- 图表
- 解决问题本论文旨在提出一种新的可扩展的大型重建模型,能够从2-4个稀疏图像中预测高质量的3D高斯原语。同时,该模型能够自然地处理具有规模和复杂度巨大变化的场景。
- 关键思路该论文提出了一种基于Transformer的简单架构,通过对输入的姿态图像进行拼接,将多视图图像token传递到一系列Transformer块中,直接从这些token解码出每个像素的高斯参数,以实现可微分渲染。
- 其它亮点该模型在Objaverse和RealEstate10K数据集上进行了训练,能够在物体和场景捕捉方面表现出色。此外,该论文还展示了该模型在下游3D生成任务中的应用。论文附带有开源代码和项目网页。
- 在这个领域中,最近的相关研究包括DeepSDF、Pixel2Mesh和OccNet等。
沙发等你来抢
去评论
评论
沙发等你来抢