- 简介现有的基于扩散的视频编辑方法在运动编辑方面取得了令人瞩目的成果。大多数现有方法关注的是编辑视频和参考视频之间的运动对齐。然而,这些方法并不限制视频的背景和对象内容保持不变,这使得用户可以生成意想不到的视频。本文提出了一种一次性视频运动编辑方法,名为“Edit-Your-Motion”,只需要一对文本-视频进行训练。具体地,我们设计了详细提示引导学习策略(DPL),以将时空扩散模型中的时空特征解耦。DPL将对象内容和运动分为两个训练阶段进行学习。在第一个训练阶段,我们专注于学习空间特征(对象内容的特征),并通过对视频帧进行混洗来分解视频帧中的时间关系。我们进一步提出了循环因果注意力(RC-Attn)来学习无序视频帧中对象的一致内容特征。在第二个训练阶段,我们恢复视频帧中的时间关系,以学习时间特征(背景和对象的运动特征)。我们还采用噪声约束损失来平滑帧间差异。最后,在推断阶段,我们通过双分支结构(编辑分支和重建分支)将源对象的内容特征注入到编辑分支中。使用“Edit-Your-Motion”,用户可以编辑源视频中对象的运动,生成更加激动人心和多样化的视频。全面的定性实验、定量实验和用户偏好研究表明,“Edit-Your-Motion”比其他方法表现更好。
- 图表
- 解决问题本文试图解决视频编辑中的动作编辑问题,即如何在保持视频背景和物体内容不变的情况下,编辑视频中的物体动作。
- 关键思路本文提出了一种基于单个文本-视频对进行训练的一次性视频动作编辑方法,称为Edit-Your-Motion。该方法采用了详细的提示引导学习策略(DPL)来将时空特征解耦,并将学习对象内容和动作分为两个阶段进行训练。在推理阶段,通过两个分支结构(编辑分支和重构分支),将源对象的内容特征注入编辑分支,以编辑源视频中的物体动作。
- 其它亮点本文的亮点包括:1)提出了一种新颖的一次性视频动作编辑方法,只需要一个文本-视频对进行训练;2)采用了详细的提示引导学习策略(DPL)来解耦时空特征;3)提出了循环因果注意力(RC-Attn)来学习无序视频帧中对象的一致内容特征;4)在训练阶段采用了噪声约束损失来平滑帧间差异;5)实验结果表明Edit-Your-Motion方法优于其他方法。
- 在这个领域中,还有一些相关的研究,例如:1)Deep Video Portraits;2)MoCoGAN;3)Everybody Dance Now;4)Few-Shot Video-to-Video Synthesis。
沙发等你来抢
去评论
评论
沙发等你来抢