VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model

简介

生成基于文本或单张图像提示的多视角图像是创建3D内容的关键能力。关于这个主题有两个基本问题：我们用什么数据进行训练，以及如何确保多视角一致性。本文介绍了一种新颖的框架，对这两个问题都做出了基本贡献。与利用2D扩散模型的图像进行训练不同，我们提出了一种密集的一致性多视角生成模型，该模型是从现成的视频生成模型微调而来。视频生成模型的图像更适合于多视角生成，因为生成它们的底层网络架构采用时间模块来强制帧一致性。此外，用于训练这些模型的视频数据集丰富多样，导致了减少了训练微调领域差距。为了增强多视角一致性，我们引入了一个3D感知去噪采样，它首先采用前馈重建模块来获得显式的全局3D模型，然后采用一种采样策略，将从全局3D模型渲染出的图像有效地纳入到去噪采样循环中，以改善最终图像的多视角一致性。作为副产品，该模块还提供了一种快速创建3D高斯表示的3D资产的方法，只需几秒钟即可完成。我们的方法可以生成24个密集视图，并且在训练过程中收敛速度比最先进的方法快得多（4 GPU小时对比数千GPU小时），并具有可比较的视觉质量和一致性。通过进一步微调，我们的方法在定量指标和视觉效果方面均优于现有的最先进方法。我们的项目页面是aigc3d.github.io/VideoMV。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何基于文本或单张图片生成多视角图像是三维内容创作的关键能力。本文提出了一个新的框架，旨在解决训练数据和多视角一致性两个问题。
关键思路

本文提出了一种密集一致的多视角生成模型，该模型从现成的视频生成模型中微调而来，通过引入3D感知去噪采样来提高多视角一致性。
其它亮点

本文的模型可以生成24个密集视角，并且训练速度比现有的方法快得多（4个GPU小时对比几千个GPU小时），同时具有可比较的视觉质量和一致性。此外，该模型还提供了一种快速创建3D高斯模型的方法。作者在实验中使用了多种数据集，并在项目页面上提供了开源代码。
相关研究

最近的相关研究包括：《Neural 3D Mesh Renderer》、《Learning to Reconstruct 3D Manhattan Wireframes from a Single Image》等。

VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model

提问交流

提问交流