ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis

简介

尽管神经三维重建技术有了新的进展，但对密集的多视角捕捉的依赖限制了它们的广泛应用。在这项工作中，我们提出了一种新颖的方法，称为“ViewCrafter”，可以从单个或稀疏图像中合成通用场景的高保真度新视角，并利用视频扩散模型的先验知识。我们的方法利用了视频扩散模型的强大生成能力和基于点的表示提供的粗略三维线索，以精确的相机姿态控制生成高质量的视频帧。为了进一步扩大新视角的生成范围，我们设计了一个迭代的视角合成策略，以及一个相机轨迹规划算法，逐步扩展三维线索和新视角的覆盖范围。使用ViewCrafter，我们可以促进各种应用，例如通过高效优化重建的三维点和生成的新视角的3D-GS表示来实现实时渲染的沉浸式体验，以及场景级别的文本到三维生成，以实现更具想象力的内容创作。对各种数据集的大量实验表明，我们的方法在合成高保真度和一致的新视角方面具有强大的泛化能力和优越的性能。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本论文旨在解决基于单张或稀疏图像合成高质量的场景新视角的问题，通过结合视频扩散模型和基于点的表示，提出了ViewCrafter方法，实现了高保真度、精确控制摄像机姿态的视频帧生成。
关键思路

论文的关键思路是利用视频扩散模型和基于点的表示生成高质量的视频帧，并采用迭代视角合成策略和相机轨迹规划算法逐步扩大新视角的生成范围。
其它亮点

论文在多个数据集上进行了广泛的实验，证明了ViewCrafter方法在场景新视角合成方面具有强大的泛化能力和优越性能。同时，该方法还可以用于实现实时渲染的沉浸式体验和基于文本的场景生成。
相关研究

在相关研究方面，最近的研究包括基于深度学习的3D重建和图像生成，如《Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild》和《Generative Models for 3D Multi-View Geometry》等。

ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis

提问交流

提问交流