VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

简介

本文提出了一种利用预训练视频扩散模型构建可扩展的三维生成模型的新方法。在开发基础三维生成模型时，主要障碍是三维数据的有限可用性。与图像、文本或视频不同，三维数据不易获取且难以获得。这导致与其他类型数据的数量巨大的比例巨大。为了解决这个问题，我们建议使用一个视频扩散模型，该模型通过大量的文本、图像和视频进行训练，作为三维数据的知识源。通过微调解锁其多视角生成能力，我们生成了一个大规模的合成多视角数据集，以训练前馈式三维生成模型。所提出的模型VFusion3D在近300万合成多视角数据上进行训练，可以在几秒钟内从单个图像生成三维资产，并在与当前SOTA前馈式三维生成模型相比表现出优越的性能，用户90%以上的时间喜欢我们的结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：本论文试图解决3D数据获取困难的问题，提出利用预训练的视频扩散模型作为3D数据的知识源，构建可扩展的3D生成模型。
关键思路

关键思路：利用预训练的视频扩散模型的多视角生成能力，生成大规模的合成多视角数据集，用于训练前馈式3D生成模型。所提出的VFusion3D模型能够在几秒钟内从单张图像生成3D模型，并在性能上超越当前最先进的前馈式3D生成模型。
其它亮点

亮点：本文使用了大规模的合成多视角数据集进行训练，并在用户调查中获得了90%以上的偏好度。实验结果表明，所提出的VFusion3D模型在性能上有很大优势。
相关研究

相关研究：最近的相关研究包括《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》和《PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization》等。

VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

提问交流

提问交流