VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control

简介

现代的文本到视频合成模型展示了从文本描述中生成复杂视频的连贯、逼真的能力。然而，大多数现有模型缺乏对相机移动的细粒度控制，这对于与内容创作、视觉效果和3D视觉相关的下游应用非常关键。最近，新的方法展示了生成具有可控相机姿态的视频的能力，这些技术利用了预训练的基于U-Net的扩散模型，显式地解离了空间和时间生成。然而，没有现有的方法能够为处理空间和时间信息的新的基于变压器的视频扩散模型实现相机控制。在这里，我们提出使用类似ControlNet的调节机制，结合基于Plucker坐标的时空相机嵌入，来驯服视频变压器进行3D相机控制。该方法在RealEstate10K数据集上进行微调后展示了可控视频生成的最先进性能。据我们所知，我们的工作是第一个为基于变压器的视频扩散模型实现相机控制的工作。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

提出了一种新的方法，解决了现有视频生成模型中相机运动控制不足的问题。
关键思路

使用基于Plucker坐标的时空相机嵌入的ControlNet机制，将视频transformers用于3D相机控制。
其它亮点

该方法在RealEstate10K数据集上进行fine-tuning后，展现出了最先进的可控视频生成性能。此外，该方法是第一个实现transformer-based视频diffusion模型相机控制的方法。
相关研究

最近的相关研究包括使用U-Net-based diffusion模型实现相机姿态控制的方法。

VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control

提问交流

提问交流