GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation

简介

我们介绍了GRM，这是一种大规模的重建器，能够在约0.1秒内从稀疏视图图像中恢复出3D资产。GRM是一种基于前馈变换器的模型，能够高效地整合多视角信息，将输入像素转换为像素对齐的高斯函数，这些高斯函数未经投影，创建了一组表示场景的密集分布的3D高斯函数。我们的变压器架构和使用3D高斯函数相结合，解锁了可扩展和高效的重建框架。广泛的实验结果表明，我们的方法在重建质量和效率方面均优于其他方法。我们还展示了GRM在生成任务中的潜力，即将其与现有的多视角扩散模型相结合，实现文本到3D和图像到3D的转换。我们的项目网站位于：https://justimyhxu.github.io/projects/grm/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决从稀疏视图图像中恢复3D模型的问题，同时探索在生成任务中的应用。
关键思路

论文提出了一种基于Transformer的模型GRM，通过将输入像素转换为像素对齐的高斯函数，并将其反投影到3D空间中，生成一组密集分布的3D高斯函数来表示场景。这种方法在重建质量和效率方面都优于其他方法。
其它亮点

论文在多个数据集上进行了广泛的实验，证明了GRM方法在重建质量和效率方面的优越性。此外，论文还探索了将GRM与现有多视角扩散模型集成用于生成任务的潜力。论文提供了开源代码和项目网站。
相关研究

在这个领域中，最近的相关研究包括DeepSDF、PIFu、NeRF等。

GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation

提问交流

提问交流