Video Editing via Factorized Diffusion Distillation

简介

我们介绍了Emu Video Edit（EVE），这是一种模型，它在视频编辑方面建立了一个新的最先进水平，而不依赖于任何受监督的视频编辑数据。为了开发EVE，我们分别训练了一个图像编辑适配器和一个视频生成适配器，并将两者连接到同一个文本到图像模型上。然后，为了将适配器对齐到视频编辑，我们引入了一种新的无监督蒸馏过程，即因式分解扩散蒸馏。这个过程同时从一个或多个教师中蒸馏知识，而不需要任何监督数据。我们利用这个过程来教EVE编辑视频，通过共同蒸馏知识来(i)精确地编辑每个单独的图像帧从图像编辑适配器中，以及(ii)利用视频生成适配器确保编辑帧之间的时间一致性。最后，为了展示我们的方法在解锁其他功能方面的潜力，我们对适配器的其他组合进行了对齐。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

提出一种不依赖于监督数据的视频编辑模型EVE，解决视频编辑问题。
关键思路

将图像编辑适配器和视频生成适配器分别训练，然后将它们附加到同一个文本到图像模型上，并使用一种新的无监督蒸馏过程Factorized Diffusion Distillation来对齐适配器，从而实现视频编辑。
其它亮点

论文提出的EVE模型在不使用任何监督视频编辑数据的情况下，实现了新的视频编辑技术。论文还介绍了一种新的无监督蒸馏过程Factorized Diffusion Distillation，可以同时从一个或多个教师那里蒸馏知识，为EVE模型的训练提供了帮助。实验结果表明，EVE模型可以实现准确的视频编辑，并保持编辑后的帧之间的时间一致性。
相关研究

最近的相关研究包括：1.《Unsupervised Video Editing via Adversarial Learning》；2.《Unsupervised Video Synthesis by Learning to Match Dynamic Distributions》；3.《Unsupervised Video Object Segmentation for Weakly-Supervised Action Localization》等。

Video Editing via Factorized Diffusion Distillation

提问交流

提问交流