- 简介我们探索了如何利用单目视频实现动态场景的新视角合成。先前的方法要么依赖于在测试时对4D表示进行代价高昂的优化,要么在以前馈方式训练时无法保持场景的几何结构。我们的方法基于三个关键见解:(1)对于在输入视角和目标视角中均可见的共可见像素(covisible pixels),可以通过首先重建动态的3D场景,并从新视角渲染该重建结果来实现渲染;(2)对于新视角中被遮挡的像素,则可以使用前馈的2D视频扩散模型进行“补全”(inpainted)。值得注意的是,我们的视频补全扩散模型(CogNVS)可以通过2D视频进行自监督学习,使我们能够使用大量真实场景视频对其进行训练。这进而实现了第三个关键点:(3)CogNVS可以通过测试时的微调,零样本(zero-shot)地应用于新的测试视频。我们通过实验验证了CogNVS在单目视频动态场景新视角合成任务中,表现优于几乎所有的现有方法。
- 图表
- 解决问题这篇论文旨在解决单目视频中动态场景的视角合成(novel-view synthesis)问题。具体来说,是从一个单目视频中重建动态3D场景,并生成在新视角下的连续视频帧。这个问题具有挑战性,因为动态场景的几何复杂性以及视角变化带来的遮挡问题。这是一个已有研究但尚未很好解决的问题。
- 关键思路论文的关键思路是将问题分解为两个部分:(1)通过动态3D场景重建渲染可见像素(covisible pixels),(2)使用基于2D视频扩散的模型(CogNVS)来补全新视角中的隐藏区域(inpainting)。与以往方法不同,该方法结合了3D重建与2D扩散模型,并通过自监督训练和测试时微调实现零样本迁移,显著提升了合成质量。
- 其它亮点1. 提出了一种结合3D重建与2D扩散模型的新方法,解决动态场景视角合成中的几何保持与遮挡补全问题。 2. CogNVS视频扩散模型可以仅通过2D视频进行自监督训练,无需3D标注数据。 3. 支持测试阶段的微调(test-time fine-tuning),实现对新视频的零样本泛化(zero-shot generalization)。 4. 实验结果显示,CogNVS在多个动态场景视角合成任务上优于几乎所有现有方法。 5. 训练数据基于大量野外视频(in-the-wild videos),增强了模型的泛化能力。
- 1. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 2. Dynamic Neural Radiance Fields for Monocular 4D Reconstruction 3. Flow Fields: Learning Scene Representations for Novel View Synthesis of Dynamic Scenes 4. D-NeRF: Neural Radiance Fields for Dynamic Scenes 5. IBRNet: Learning Multi-View Image-Based Rendering with Neural Networks 6. Video Diffusion Models for High-Quality and Temporally Coherent View Synthesis
沙发等你来抢
去评论
评论
沙发等你来抢