- 简介基于运动控制的文本到视频生成涉及使用运动来控制视频生成。以往的方法通常需要训练模型来编码运动提示或微调视频扩散模型。然而,这些方法在应用于训练域之外时往往会导致次优的运动生成。在本文中,我们提出了MotionClone,这是一个无需训练的框架,可以从参考视频中进行运动克隆,以控制文本到视频的生成。我们在视频反演中采用时间注意力来表示参考视频中的运动,并引入主要的时间注意力指导,以减轻注意力权重中噪声或非常微妙运动的影响。此外,为了帮助生成模型合成合理的空间关系并增强其遵循提示的能力,我们提出了一个位置感知的语义指导机制,利用参考视频中前景的粗略位置和原始的无分类器指导特征来指导视频生成。广泛的实验表明,MotionClone在全局相机运动和局部物体运动方面表现出熟练的能力,并在运动保真度、文本对齐度和时间一致性方面具有显著的优势。
-
- 图表
- 解决问题MotionClone旨在解决运动控制文本到视频生成的问题,通过从参考视频中克隆运动来控制文本到视频的生成,避免了在训练模型时需要编码运动线索或微调视频扩散模型的缺点。
- 关键思路MotionClone是一个无需训练的框架,利用视频反演中的时间注意力来表示参考视频中的运动,并引入主要的时间注意力指导来缓解注意力权重中噪声或非常微妙的运动的影响。此外,为了帮助生成模型合成合理的空间关系并增强其遵循提示的能力,作者提出了一个位置感知的语义指导机制,利用参考视频中前景的粗略位置和原始的无分类器指导特征来指导视频生成。
- 其它亮点MotionClone在全局相机运动和局部物体运动方面表现出了高超的技巧,具有显着的运动保真度,文本对齐度和时间一致性。作者在多个数据集上进行了广泛的实验,证明了该方法的有效性。论文提供了开源代码。
- 在这个领域中,最近的相关研究包括:1)基于深度学习的文本到视频生成方法;2)运动控制视频生成的方法;3)视频反演技术。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流