GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation

向作者提问

NEW

简介

本文介绍了一种名为Geometry-Aware Large Reconstruction Model（GeoLRM）的方法，可以在只使用11 GB GPU内存、512k个高斯点和21个输入图像的情况下预测高质量的资产。之前的方法忽略了3D结构的稀疏性，并没有利用3D和2D图像之间的明确几何关系，这限制了这些方法的低分辨率表示并使其难以扩展到更密集的视图以获得更好的质量。GeoLRM通过融合新颖的3D-aware transformer结构来解决这些问题，该结构直接处理3D点并使用可变形交叉注意机制将图像特征有效地整合到3D表示中。我们通过一个两阶段的流程来实现这个解决方案：首先，一个轻量级的提议网络从姿态图像输入中生成一组稀疏的3D锚点；随后，一个专门的重建transformer会细化几何形状并检索纹理细节。广泛的实验结果表明，GeoLRM在特别是对于密集视图输入方面，明显优于现有模型。我们还演示了我们的模型在3D生成任务中的实际适用性，展示了它的多功能性和在实际应用中的潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

GeoLRM试图解决的问题是如何通过利用3D结构的稀疏性和3D与2D图像之间的几何关系来预测高质量的资产，并且可以扩展到更密集的视角以获得更好的质量。
关键思路

GeoLRM的关键思路是通过引入一个新颖的3D感知变压器结构，直接处理3D点，并使用可变形的交叉注意机制将图像特征有效地集成到3D表示中。
其它亮点

论文通过两个阶段的管道实现了这个解决方案：首先，一个轻量级的提议网络从图像输入中生成一组稀疏的3D锚点；随后，一个专门的重建变压器对几何形状进行细化并检索纹理细节。实验结果表明，GeoLRM明显优于现有模型，特别是对于密集视角输入。论文还展示了模型在3D生成任务中的实用性和潜力，证明其适用于更广泛的实际应用。
相关研究

最近的相关研究包括：《DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation》、《PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization》、《Occupancy Networks: Learning 3D Reconstruction in Function Space》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问