VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control

简介

现代的文本到视频合成模型展示了从文本描述中生成复杂视频的连贯、逼真的能力。然而，大多数现有模型缺乏对相机移动的细粒度控制，这对于与内容创作、视觉效果和三维视觉相关的下游应用至关重要。最近，新的方法展示了生成具有可控相机姿态的视频的能力，这些技术利用了预训练的基于U-Net的扩散模型，明确地解开了空间和时间生成之间的联系。然而，目前没有任何方法能够为处理空间和时间信息的新型transformer-based视频扩散模型启用相机控制。在这里，我们提出了一种使用类似于ControlNet的调节机制来驾驭视频transformer进行3D相机控制的方法，该机制结合基于Plucker坐标的时空相机嵌入。该方法在RealEstate10K数据集上进行微调后展示了可控视频生成的最新性能。据我们所知，我们的工作是第一个为基于transformer的视频扩散模型启用相机控制的工作。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文旨在解决现有文本到视频合成模型中缺乏对相机运动细粒度控制的问题，提出了一种基于Transformer的视频合成模型的相机控制方法。
关键思路

论文提出了一种基于ControlNet的条件机制，并结合Plucker坐标的时空相机嵌入，使得Transformer-based视频合成模型能够实现对相机姿态的控制。
其它亮点

论文在RealEstate10K数据集上进行了fine-tuning，并取得了最先进的结果。该方法为Transformer-based视频合成模型的相机控制提供了新思路，有望在内容创作、视觉效果和3D视觉等领域得到应用。
相关研究

最近的相关研究包括利用U-Net-based扩散模型实现相机姿态控制的方法。

VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control

提问交流

提问交流