L4GM: Large 4D Gaussian Reconstruction Model

2024年06月14日
  • 简介
    我们提出了L4GM,这是第一个能够从单视角视频输入中生成动画对象的4D大型重建模型——仅需一次前馈传递,仅需一秒钟。我们成功的关键是一组新颖的多视角视频数据集,其中包含了Objaverse中精心策划、渲染的动画对象。该数据集展示了44K个多样化的对象,110K个动画在48个视角下呈现,共产生了12M个视频,总共300M帧。为了实现可扩展性,我们让L4GM保持简单,并直接在预训练的3D大型重建模型LGM的基础上构建,该模型从多视角图像输入中输出3D高斯椭球体。L4GM从以低fps采样的视频帧中输出每帧的3D高斯喷洒表示,然后将表示上采样到更高的fps以实现时间平滑。我们在基础LGM中添加了时间自注意层,以帮助其学习时间上的一致性,并利用每个时间步的多视角渲染损失来训练模型。通过训练插值模型,将表示上采样到更高的帧速率。我们展示了L4GM仅在合成数据上训练即可在野外视频中表现出极高的泛化能力,生成高质量的动画3D资产。
  • 作者讲解
  • 图表
  • 解决问题
    本论文试图从单视角视频输入中重建出具有动画效果的三维物体,解决了单视角视频输入下三维物体重建的问题。
  • 关键思路
    本论文的关键思路是使用一个新的数据集,结合预训练的三维重建模型和时间自注意力机制,将单视角视频输入转化为具有动画效果的三维物体。
  • 其它亮点
    本论文的亮点包括使用了一个新的数据集,提出了时间自注意力机制,使用了渲染损失函数和插值模型来提高模型的鲁棒性。实验结果表明,该模型在合成数据和真实数据上都有很好的表现。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《MonoPerfCap: Human Performance Capture from Monocular Video》、《Single-View 3D Scene Reconstruction and Parsing with Self-Supervised Shape and Pose Prediction Networks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问