Frame Interpolation with Consecutive Brownian Bridge Diffusion

2024年05月09日
  • 简介
    最近的视频帧插值(VFI)工作试图将VFI制定为基于扩散的条件图像生成问题,合成给定随机噪声和相邻帧的中间帧。由于视频的相对高分辨率,使用潜在扩散模型(LDM)作为条件生成模型,其中自编码器将图像压缩成潜在表示进行扩散,然后从这些潜在表示重构图像。这种制定方式提出了一个关键的挑战:VFI期望输出与地面真实中间帧确定性相等,但是当模型运行多次时,LDM会随机生成不同的图像集。造成多样化生成的原因是LDM中生成的潜在表示的累积方差(在每个生成步骤中累积的方差)很大。这使得采样轨迹是随机的,导致生成是多样化而不是确定性的。为了解决这个问题,我们提出了我们独特的解决方案:连续布朗桥扩散的帧插值。具体而言,我们提出连续布朗桥扩散,以确定性初始值作为输入,从而生成的潜在表示的累积方差要小得多。我们的实验表明,我们的方法可以随着自编码器的改进而改进,并在VFI中实现最先进的性能,为进一步增强留下了强大的潜力。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决视频帧插值中的多样性问题,即如何实现确定性的输出结果。
  • 关键思路
    论文提出了一种名为Consecutive Brownian Bridge Diffusion的方法,通过使用确定性的初始值,减小生成的潜在表示的累积方差,从而实现确定性的输出结果。
  • 其它亮点
    论文采用Latent Diffusion Models (LDMs)作为条件生成模型,使用自编码器将图像压缩成潜在表示进行扩散,并从这些潜在表示中重构图像。论文提出的方法在实验中取得了最先进的性能,并留下了进一步改进的强大潜力。
  • 相关研究
    最近在视频帧插值领域中的相关研究包括:1. EDVR: Video Restoration with Enhanced Deformable Convolutional Networks;2. DAIN: Depth-Aware Video Frame Interpolation;3. TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问