CameraCtrl: Enabling Camera Control for Text-to-Video Generation

简介

控制性在视频生成中扮演着至关重要的角色，因为它允许用户创建所需的内容。然而，现有的模型在精确控制相机姿态方面存在较大的缺陷，而相机姿态则是表达更深层次叙事细节的电影语言。为了解决这个问题，我们引入了CameraCtrl，为文本到视频（T2V）模型提供了准确的相机姿态控制。在精确参数化相机轨迹后，我们对T2V模型进行了插入式相机模块的训练，使其他模块不受影响。此外，我们还进行了对各种数据集效果的全面研究，结果表明，具有不同相机分布和相似外观的视频确实增强了可控性和泛化性。实验结果证明了CameraCtrl在实现精确和领域自适应相机控制方面的有效性，这标志着从文本和相机姿态输入实现动态和定制化视频叙事的迈进。我们的项目网站是：https://hehao13.github.io/projects-CameraCtrl/。
图表
解决问题

论文旨在解决视频生成中相机姿态控制的精确性问题，提高对视频内容的可控性和表现力。
关键思路

论文提出了CameraCtrl方法，通过精确参数化相机运动轨迹并在T2V模型上训练插件式相机模块，实现对相机姿态的精确控制。
其它亮点

论文通过实验验证了使用具有多样相机分布和相似外观的数据集可以提高模型的可控性和泛化性能。论文提供了开源代码和项目网站。
相关研究

近期的相关研究包括：1. Learning to Control the Visual Content of Composite Images 2. Controllable Video Generation with Sparse Trajectories 3. Text-to-Video Generation with Explicit Content Control

CameraCtrl: Enabling Camera Control for Text-to-Video Generation

评论