VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

简介

本论文提出了一种利用预训练视频扩散模型构建可扩展的三维生成模型的新范式。开发基础三维生成模型的主要障碍是三维数据的有限可用性。与图像、文本或视频不同，三维数据不容易获得且难以获取。这导致与其他类型的数据相比存在显着的规模差异。为了解决这个问题，我们建议使用一个经过广泛文本、图像和视频训练的视频扩散模型作为三维数据的知识源。通过微调解锁其多视角生成能力，我们生成了一个大规模的合成多视角数据集来训练前馈三维生成模型。所提出的模型VFusion3D，经过近300万个合成多视角数据的训练，可以在几秒钟内从单个图像生成一个三维资产，并在与当前最先进的前馈三维生成模型进行比较时实现了优越的性能，用户70%以上的时间更喜欢我们的结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何利用预训练的视频扩散模型构建可扩展的三维生成模型？如何解决三维数据获取困难的问题？
关键思路

使用预训练的视频扩散模型作为三维数据的知识源，通过微调解锁其多视角生成能力，生成大规模的合成多视角数据集，用于训练前馈三维生成模型。
其它亮点

提出的VFusion3D模型在近300万个合成多视角数据的训练下，可以在几秒钟内从单张图像生成三维模型，并在性能上超过当前最先进的前馈三维生成模型。实验设计合理，使用了大量的数据集，并且开源了代码。
相关研究

最近的相关研究包括：《3D Generative Models with Continuous Visibility and Mesh Connectivity》、《Learning to Infer Implicit Surfaces without 3D Supervision》等。

VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

提问交流

提问交流