MVGamba: Unify 3D Content Generation as State Space Sequence Modeling

简介

最近的3D大型重建模型（LRMs）通过将多视角扩散模型与可扩展的多视角重建器相结合，可以在亚秒级别内生成高质量的3D内容。目前的研究进一步利用3D高斯光斑作为3D表示，以提高视觉质量和渲染效率。然而，我们观察到现有的高斯重建模型经常遭受多视角不一致和模糊纹理的问题。我们将其归因于在采用强大但计算密集的架构（例如变形器）的情况下，在多视角信息传播方面进行了妥协。为了解决这个问题，我们引入了MVGamba，这是一个通用且轻量级的高斯重建模型，具有基于类似于RNN的状态空间模型（SSM）的多视角高斯重建器。我们的高斯重建器传播包含多视角信息的因果上下文，用于跨视图自我细化，同时生成具有线性复杂度的高斯长序列，以进行精细细节建模。通过集成现成的多视角扩散模型，MVGamba将来自单个图像、稀疏图像或文本提示的3D生成任务统一起来。广泛的实验表明，MVGamba在所有3D内容生成场景中均优于最先进的基线模型，而仅具有约0.1倍的模型大小。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决现有的高斯重建模型在多视角一致性和纹理模糊方面的问题，提出一种轻量级的多视角高斯重建模型MVgamba。
关键思路

MVgamba采用RNN-like状态空间模型作为多视角高斯重建器，以线性复杂度生成长序列的高斯函数，同时传播包含多视角信息的因果上下文，实现跨视图自我细化。
其它亮点

论文通过实验证明，MVgamba在单张图像、稀疏图像或文本提示的3D生成任务中，都优于现有的基线模型，并且模型大小仅为现有模型的0.1倍。此外，论文还开源了模型代码和数据集。
相关研究

近期相关研究包括：《Learning to Reconstruct 3D Manhattan Wireframes from Monocular Images》、《DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation》等。

MVGamba: Unify 3D Content Generation as State Space Sequence Modeling

提问交流

提问交流