FreeInit: Bridging Initialization Gap in Video Diffusion Models

2023年12月12日
  • 简介
    尽管基于扩散的视频生成已经取得了快速的进展,但现有模型的推理结果仍然表现出不令人满意的时间一致性和不自然的动态。本文深入探讨了视频扩散模型的噪声初始化,并发现了一个隐含的训练-推理差距,导致了不令人满意的推理质量。我们的关键发现是:1)推理时初始潜变量的时空频率分布与训练时本质上不同,2)去噪过程受到初始噪声的低频成分的显著影响。在这些观察的基础上,我们提出了一种简洁而有效的推理采样策略FreeInit,显著提高了扩散模型生成的视频的时间一致性。通过在推理过程中迭代地改进初始潜变量的时空低频成分,FreeInit能够弥补训练和推理之间的初始化差距,从而有效地提高了生成结果的主体外观和时间一致性。大量实验证明,FreeInit在不需要额外训练的情况下,一致地提高了各种文本到视频生成模型的生成结果。
  • 作者讲解
  • 图表
  • 解决问题
    解决视频扩散模型存在的时间不一致性和不自然动态的问题。
  • 关键思路
    通过发现隐式的训练-推理差距,提出了一种名为FreeInit的推理采样策略,通过迭代地改进初始潜在的空间-时间低频成分,从而弥补了训练和推理之间的差距,有效地提高了生成结果的主题外观和时间一致性。
  • 其它亮点
    提出了一种新的推理采样策略FreeInit,可以显著提高视频扩散模型生成的视频的时间一致性。实验表明,FreeInit可以在不需要额外训练的情况下,显著提高各种文本到视频生成模型的生成结果。
  • 相关研究
    最近的相关研究包括PixelCNN,PixelRNN,Glow和Flow++等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问