Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion

简介

最近计算机视觉的一个前沿领域是3D视频生成任务，即生成一个场景的时间变化的3D表示。为了生成动态的3D场景，目前的方法通过同时优化场景在时间和视角上的一致性来显式地建模3D时间动态。在本文中，我们研究了是否需要像目前的方法那样显式地强制执行多视角一致性，或者模型独立地为每个时间步生成3D表示是否足够。因此，我们提出了一个名为Vid3D的模型，它利用2D视频扩散来生成3D视频，首先生成视频时间动态的2D“种子”，然后独立地为种子视频中的每个时间步生成3D表示。我们将Vid3D与两种最先进的3D视频生成方法进行了评估，并发现尽管没有显式地建模3D时间动态，但Vid3D实现了可比较的结果。我们进一步分析了Vid3D的质量如何取决于每帧生成的视角数量。虽然我们观察到视角较少会导致一定程度的降级，但性能下降仍然很小。因此，我们的结果表明，为了生成高质量的动态3D场景，可能不需要3D时间知识，这可能为这个任务提供更简单的生成算法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文探究了在生成动态三维场景时，是否需要显式地强制多视角一致性，或者模型独立地为每个时间步生成三维表示是否足够。
关键思路

本文提出了一种名为Vid3D的模型，利用二维视频扩散生成三维视频。该模型首先生成视频的时间动态的二维“种子”，然后独立地为种子视频中的每个时间步生成三维表示。
其它亮点

本文的实验结果表明，Vid3D在不显式建模三维时间动态的情况下，可以实现与两种最先进的三维视频生成方法相当的结果。此外，本文还探讨了Vid3D的质量如何取决于每帧生成的视图数，结果发现虽然视图较少会导致一定的性能下降，但性能下降仍然不大。
相关研究

近期的相关研究包括：《Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks》、《3D Video Generation with Multi-Head Contrastive Learning》等。

Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion

提问交流

提问交流