MotionClone: Training-Free Motion Cloning for Controllable Video Generation

2024年06月08日
  • 简介
    运动控制的文本到视频生成涉及使用运动来控制视频生成。以往的方法通常需要训练模型来编码运动线索或微调视频扩散模型。然而,这些方法在应用于训练领域之外时往往会导致次优的运动生成。在这项工作中,我们提出了MotionClone,这是一个无需训练的框架,可以从参考视频中进行运动克隆以控制文本到视频生成。我们采用视频反演中的时间注意力来表示参考视频中的运动,并引入主要的时间注意力指导来缓解注意力权重中嘈杂或非常微妙的运动的影响。此外,为了帮助生成模型合成合理的空间关系并增强其遵循提示的能力,我们提出了一种位置感知的语义指导机制,利用参考视频中前景的粗略位置和原始的无分类器指导特征来指导视频生成。广泛的实验表明,MotionClone在全局相机运动和局部物体运动方面表现出了熟练的能力,具有运动保真度、文本对齐度和时间一致性方面的显著优势。
  • 作者讲解
  • 图表
  • 解决问题
    MotionClone论文提出了一种无需训练模型即可控制文本到视频生成的框架,以解决现有方法在应用于训练领域之外时产生次优运动生成的问题。
  • 关键思路
    MotionClone使用视频反演中的时间注意力来表示参考视频中的运动,并引入主要的时间注意力指导来减轻注意力权重中噪声或非常微妙运动的影响。此外,为了帮助生成模型合成合理的空间关系并增强其遵循提示的能力,MotionClone提出了一种位置感知的语义指导机制,该机制利用参考视频中前景的粗略位置和原始的无分类器指导特征来指导视频生成。
  • 其它亮点
    MotionClone在全局相机运动和局部物体运动方面表现出良好的性能,具有运动保真度、文本对齐度和时间一致性的显著优势。论文使用了多个数据集进行实验,并在GitHub上公开了代码。
  • 相关研究
    与此相关的最近研究包括:《Text2Video: Text-driven Editing of Video Using Machine Learning》、《Text2Video: Generative Adversarial Networks for Generating Videos from Text》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问