L4GM: Large 4D Gaussian Reconstruction Model

简介

我们提出了L4GM，这是第一个能够从单视角视频输入中生成动画对象的4D大型重建模型——仅需一次前馈传递，仅需一秒钟。我们成功的关键是一组新颖的多视角视频数据集，其中包含了Objaverse中精心策划、渲染的动画对象。该数据集展示了44K个多样化的对象，110K个动画在48个视角下呈现，共产生了12M个视频，总共300M帧。为了实现可扩展性，我们让L4GM保持简单，并直接在预训练的3D大型重建模型LGM的基础上构建，该模型从多视角图像输入中输出3D高斯椭球体。L4GM从以低fps采样的视频帧中输出每帧的3D高斯喷洒表示，然后将表示上采样到更高的fps以实现时间平滑。我们在基础LGM中添加了时间自注意层，以帮助其学习时间上的一致性，并利用每个时间步的多视角渲染损失来训练模型。通过训练插值模型，将表示上采样到更高的帧速率。我们展示了L4GM仅在合成数据上训练即可在野外视频中表现出极高的泛化能力，生成高质量的动画3D资产。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文试图从单视角视频输入中重建出具有动画效果的三维物体，解决了单视角视频输入下三维物体重建的问题。
关键思路

本论文的关键思路是使用一个新的数据集，结合预训练的三维重建模型和时间自注意力机制，将单视角视频输入转化为具有动画效果的三维物体。
其它亮点

本论文的亮点包括使用了一个新的数据集，提出了时间自注意力机制，使用了渲染损失函数和插值模型来提高模型的鲁棒性。实验结果表明，该模型在合成数据和真实数据上都有很好的表现。
相关研究

最近在这个领域中，还有一些相关的研究，例如《MonoPerfCap: Human Performance Capture from Monocular Video》、《Single-View 3D Scene Reconstruction and Parsing with Self-Supervised Shape and Pose Prediction Networks》等。

L4GM: Large 4D Gaussian Reconstruction Model

提问交流

提问交流