Video Editing via Factorized Diffusion Distillation

2024年03月14日
  • 简介
    我们介绍了Emu Video Edit(EVE),这是一种模型,它在视频编辑方面建立了一个新的最先进水平,而不依赖于任何受监督的视频编辑数据。为了开发EVE,我们分别训练了一个图像编辑适配器和一个视频生成适配器,并将两者连接到同一个文本到图像模型上。然后,为了将适配器对齐到视频编辑,我们引入了一种新的无监督蒸馏过程,即因式分解扩散蒸馏。这个过程同时从一个或多个教师中蒸馏知识,而不需要任何监督数据。我们利用这个过程来教EVE编辑视频,通过共同蒸馏知识来(i)精确地编辑每个单独的图像帧从图像编辑适配器中,以及(ii)利用视频生成适配器确保编辑帧之间的时间一致性。最后,为了展示我们的方法在解锁其他功能方面的潜力,我们对适配器的其他组合进行了对齐。
  • 作者讲解·1
  • 图表
  • 解决问题
    提出一种不依赖于监督数据的视频编辑模型EVE,解决视频编辑问题。
  • 关键思路
    将图像编辑适配器和视频生成适配器分别训练,然后将它们附加到同一个文本到图像模型上,并使用一种新的无监督蒸馏过程Factorized Diffusion Distillation来对齐适配器,从而实现视频编辑。
  • 其它亮点
    论文提出的EVE模型在不使用任何监督视频编辑数据的情况下,实现了新的视频编辑技术。论文还介绍了一种新的无监督蒸馏过程Factorized Diffusion Distillation,可以同时从一个或多个教师那里蒸馏知识,为EVE模型的训练提供了帮助。实验结果表明,EVE模型可以实现准确的视频编辑,并保持编辑后的帧之间的时间一致性。
  • 相关研究
    最近的相关研究包括:1.《Unsupervised Video Editing via Adversarial Learning》;2.《Unsupervised Video Synthesis by Learning to Match Dynamic Distributions》;3.《Unsupervised Video Object Segmentation for Weakly-Supervised Action Localization》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问