World-consistent Video Diffusion with Explicit 3D Modeling

向作者提问

NEW

简介

近期在扩散模型方面的进展已经在图像和视频生成领域设定了新的基准，能够在单帧和多帧上下文中实现逼真的视觉合成。然而，这些模型在高效且明确地生成三维一致的内容方面仍然存在困难。为了解决这一问题，我们提出了世界一致视频扩散（WVD），这是一种新颖的框架，通过使用XYZ图像（编码每个图像像素的全局三维坐标）引入显式的三维监督。更具体地说，我们训练了一个扩散变压器来学习RGB和XYZ帧的联合分布。这种方法通过灵活的修复策略支持多任务适应性。例如，WVD可以从真实的RGB帧估计XYZ帧，或者使用沿指定摄像机轨迹的XYZ投影生成新的RGB帧。通过这种方式，WVD统一了单图像到三维生成、多视角立体视觉和摄像机控制的视频生成等任务。我们的方法在多个基准测试中表现出竞争力，提供了一种可扩展的解决方案，使用单一预训练模型即可实现三维一致的视频和图像生成。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决现有扩散模型在生成3D一致内容时效率低下和不明确的问题。这是一个持续存在的挑战，尤其是在视频生成和多视角重建领域。
关键思路

论文提出了一种名为World-consistent Video Diffusion (WVD) 的新型框架，通过引入XYZ图像（编码每个像素的全局3D坐标）来提供显式的3D监督。这一方法使模型能够学习RGB和XYZ帧的联合分布，从而支持多任务适应性，如从RGB图像估计XYZ帧或使用指定的相机轨迹生成新的RGB帧。
其它亮点

1. WVD框架统一了单图像到3D生成、多视角立体视觉和相机控制的视频生成等任务。 2. 实验表明，WVD在多个基准测试中表现出色，展示了其在3D一致视频和图像生成中的可扩展性和鲁棒性。 3. 论文提供了详细的实验设计，包括使用多种数据集进行验证，并且开源了代码，便于其他研究者复现和进一步研究。 4. 未来的研究方向包括进一步优化模型的效率和泛化能力，以及探索更多应用场景。
相关研究

1. "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis" - 提出了使用神经辐射场表示场景以实现视图合成的方法。 2. "PixelNeRF: Neural Radiance Fields from One or Few Images" - 研究了如何从少量图像中生成神经辐射场。 3. "Pi-GAN: Periodic Implicit Generative Adversarial Networks for 3D-Aware Image Synthesis" - 探索了周期性隐式生成对抗网络在3D感知图像生成中的应用。 4. "3D Diffusion Models for Multi-View Image Generation" - 研究了3D扩散模型在多视角图像生成中的应用。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问