- 简介文本到图像(T2I)扩散模型在图像合成和编辑方面取得了最先进的结果。然而,利用这些预训练模型进行视频编辑被认为是一个重大挑战。许多现有的方法尝试通过显式的对应机制在像素空间或深度特征之间强制实现编辑视频的时间一致性。然而,这些方法在处理强非刚性运动时存在困难。在本文中,我们介绍了一种根本不同的方法,该方法基于观察到自然视频的时空切片具有类似于自然图像的特征。因此,通常仅用作视频帧先验的相同T2I扩散模型也可以作为增强时空一致性的强先验,通过在时空切片上应用它。基于这一观察,我们提出了一种名为Slicedit的文本视频编辑方法,利用预训练的T2I扩散模型来处理空间和时空切片。我们的方法生成的视频保留了原始视频的结构和运动,同时遵循目标文本。通过大量实验,我们证明了Slicedit编辑各种真实世界视频的能力,证实了与现有竞争方法相比的明显优势。网页链接:https://matankleiner.github.io/slicedit/
- 图表
- 解决问题本文试图解决视频编辑中的一个挑战:如何利用预训练的T2I扩散模型实现视频编辑的时空一致性?
- 关键思路本文提出了一种全新的思路,即将自然视频的时空切片作为图像处理,利用T2I扩散模型作为强大的先验,从而实现文本驱动的视频编辑。
- 其它亮点本文提出的Slicedit方法可以在保留原始视频结构和运动的同时,实现文本驱动的视频编辑。实验结果表明,Slicedit在各种现实世界视频编辑任务中具有优异的性能。
- 当前的相关研究主要集中在通过像素空间或深度特征之间的显式对应机制实现编辑视频的时空一致性,但这些方法在处理强非刚性运动时存在困难。
沙发等你来抢
去评论
评论
沙发等你来抢