- 简介最近的文本到视频(T2V)生成方法中,实现合成视频的可控性通常是一个挑战。通常,这个问题通过提供边缘图、深度图或要修改的现有视频的低级逐帧指导来解决。然而,获取这样的指导的过程可能需要耗费大量的人力。本文旨在通过使用简单的边界框以各种方式指导主题来增强视频合成的可控性,而无需进行神经网络训练、微调、推理时优化或使用现有视频。我们的算法TrailBlazer是建立在预先训练的(T2V)模型上的,易于实现。主题通过边界框通过所提出的空间和时间注意力映射编辑进行指导。此外,我们引入了关键帧的概念,允许通过移动的边界框和相应的提示来指导主题轨迹和整体外观,而无需提供详细的掩码。该方法高效,与底层预训练模型相比,附加计算量可以忽略不计。尽管边界框指导的简单性,结果运动出奇地自然,出现了透视和向虚拟相机移动的紧急效果,随着框的大小增加。
-
- 图表
- 解决问题本论文旨在通过使用简单的边界框来增强视频合成的可控性,避免需要进行神经网络训练、微调、优化或使用现有视频等繁琐的操作。同时,该论文还试图解决现有视频合成中的可控性问题。
- 关键思路TrailBlazer算法是在预训练的T2V模型基础上构建的,通过边界框来控制视频中的主体,实现空间和时间注意力图的编辑。此外,论文还引入了关键帧的概念,通过移动边界框和相应的提示来指导主体的轨迹和整体外观。
- 其它亮点TrailBlazer算法的实现简单,几乎不需要额外的计算。尽管使用的是简单的边界框指导,但生成的运动效果非常自然,包括随着边界框大小的增加而产生的透视和朝向虚拟相机的运动。论文还使用了哪些数据集、实验设计如何以及是否开源代码等信息。
- 在最近的文献中,也有一些相关的研究,例如“Video Generation from Text”、“Text-to-Video Generation”等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流