- 简介最近的视频帧插值(VFI)工作试图将VFI制定为基于扩散的条件图像生成问题,合成给定随机噪声和相邻帧的中间帧。由于视频的相对高分辨率,使用潜在扩散模型(LDM)作为条件生成模型,其中自编码器将图像压缩成潜在表示进行扩散,然后从这些潜在表示重构图像。这种制定方式提出了一个关键的挑战:VFI期望输出与地面真实中间帧确定性相等,但是当模型运行多次时,LDM会随机生成不同的图像集。造成多样化生成的原因是LDM中生成的潜在表示的累积方差(在每个生成步骤中累积的方差)很大。这使得采样轨迹是随机的,导致生成是多样化而不是确定性的。为了解决这个问题,我们提出了我们独特的解决方案:连续布朗桥扩散的帧插值。具体而言,我们提出连续布朗桥扩散,以确定性初始值作为输入,从而生成的潜在表示的累积方差要小得多。我们的实验表明,我们的方法可以随着自编码器的改进而改进,并在VFI中实现最先进的性能,为进一步增强留下了强大的潜力。
-
- 图表
- 解决问题本论文旨在解决视频帧插值中的多样性问题,即如何实现确定性的输出结果。
- 关键思路论文提出了一种名为Consecutive Brownian Bridge Diffusion的方法,通过使用确定性的初始值,减小生成的潜在表示的累积方差,从而实现确定性的输出结果。
- 其它亮点论文采用Latent Diffusion Models (LDMs)作为条件生成模型,使用自编码器将图像压缩成潜在表示进行扩散,并从这些潜在表示中重构图像。论文提出的方法在实验中取得了最先进的性能,并留下了进一步改进的强大潜力。
- 最近在视频帧插值领域中的相关研究包括:1. EDVR: Video Restoration with Enhanced Deformable Convolutional Networks;2. DAIN: Depth-Aware Video Frame Interpolation;3. TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流