- 简介运动控制的文本到视频生成涉及使用运动来控制视频生成。以往的方法通常需要训练模型来编码运动线索或微调视频扩散模型。然而,这些方法在应用于训练领域之外时往往会导致次优的运动生成。在这项工作中,我们提出了MotionClone,这是一个无需训练的框架,可以从参考视频中进行运动克隆以控制文本到视频生成。我们采用视频反演中的时间注意力来表示参考视频中的运动,并引入主要的时间注意力指导来缓解注意力权重中嘈杂或非常微妙的运动的影响。此外,为了帮助生成模型合成合理的空间关系并增强其遵循提示的能力,我们提出了一种位置感知的语义指导机制,利用参考视频中前景的粗略位置和原始的无分类器指导特征来指导视频生成。广泛的实验表明,MotionClone在全局相机运动和局部物体运动方面表现出了熟练的能力,具有运动保真度、文本对齐度和时间一致性方面的显著优势。
-
- 图表
- 解决问题MotionClone论文提出了一种无需训练模型即可控制文本到视频生成的框架,以解决现有方法在应用于训练领域之外时产生次优运动生成的问题。
- 关键思路MotionClone使用视频反演中的时间注意力来表示参考视频中的运动,并引入主要的时间注意力指导来减轻注意力权重中噪声或非常微妙运动的影响。此外,为了帮助生成模型合成合理的空间关系并增强其遵循提示的能力,MotionClone提出了一种位置感知的语义指导机制,该机制利用参考视频中前景的粗略位置和原始的无分类器指导特征来指导视频生成。
- 其它亮点MotionClone在全局相机运动和局部物体运动方面表现出良好的性能,具有运动保真度、文本对齐度和时间一致性的显著优势。论文使用了多个数据集进行实验,并在GitHub上公开了代码。
- 与此相关的最近研究包括:《Text2Video: Text-driven Editing of Video Using Machine Learning》、《Text2Video: Generative Adversarial Networks for Generating Videos from Text》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流