- 简介扩散式视频生成模型通过迭代去噪的过程取得了显著的成功,获得了高保真度的视频。然而,这些模型在采样过程中需要多次去噪,导致计算成本高。在这项工作中,我们提出了一种新的方法,通过对预训练的视频扩散模型进行对抗训练,来获得单步视频生成模型。我们展示了通过对抗训练,多步骤视频扩散模型即稳定视频扩散(SVD)可以被训练成执行单向传递以合成高质量视频,捕捉视频数据中的时间和空间依赖性。广泛的实验表明,我们的方法在合成视频的生成质量方面达到了竞争水平,并且在去噪过程中大大减少了计算开销(即与SVD相比约为23倍的加速比,与现有工作相比为6倍的加速比,甚至具有更好的生成质量),为实时视频合成和编辑铺平了道路。更多的可视化结果可以在https://snap-research.github.io/SF-V上公开获取。
- 图表
- 解决问题本论文尝试通过对预训练视频扩散模型进行对抗训练来实现单步视频生成模型,以减少计算成本并实现实时视频合成和编辑。
- 关键思路通过对抗训练,将多步视频扩散模型(SVD)fine-tune为单步视频生成模型,从而在一个前向传递中捕捉视频数据的时空依赖性。
- 其它亮点实验结果表明,该方法在生成质量上具有竞争力,并且相对于SVD和现有工作,减少了计算成本(分别为23倍和6倍速度提升),为实时视频合成和编辑铺平了道路。作者公开了更多的可视化结果和代码。
- 最近的相关研究包括:Diffusion Models for Video Generation(Tulyakov等),Video Generation with Recurrent Adversarial Networks(Srivastava等),Temporal Generative Adversarial Networks with Singular Value Clipping(Saito等)。
沙发等你来抢
去评论
评论
沙发等你来抢