Frame Interpolation with Consecutive Brownian Bridge Diffusion

简介

最近的视频帧插值（VFI）工作试图将VFI制定为基于扩散的条件图像生成问题，合成给定随机噪声和相邻帧的中间帧。由于视频的相对高分辨率，使用潜在扩散模型（LDM）作为条件生成模型，其中自编码器将图像压缩成潜在表示进行扩散，然后从这些潜在表示重构图像。这种制定方式提出了一个关键的挑战：VFI期望输出与地面真实中间帧确定性相等，但是当模型运行多次时，LDM会随机生成不同的图像集。造成多样化生成的原因是LDM中生成的潜在表示的累积方差（在每个生成步骤中累积的方差）很大。这使得采样轨迹是随机的，导致生成是多样化而不是确定性的。为了解决这个问题，我们提出了我们独特的解决方案：连续布朗桥扩散的帧插值。具体而言，我们提出连续布朗桥扩散，以确定性初始值作为输入，从而生成的潜在表示的累积方差要小得多。我们的实验表明，我们的方法可以随着自编码器的改进而改进，并在VFI中实现最先进的性能，为进一步增强留下了强大的潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决视频帧插值中的多样性问题，即如何实现确定性的输出结果。
关键思路

论文提出了一种名为Consecutive Brownian Bridge Diffusion的方法，通过使用确定性的初始值，减小生成的潜在表示的累积方差，从而实现确定性的输出结果。
其它亮点

论文采用Latent Diffusion Models (LDMs)作为条件生成模型，使用自编码器将图像压缩成潜在表示进行扩散，并从这些潜在表示中重构图像。论文提出的方法在实验中取得了最先进的性能，并留下了进一步改进的强大潜力。
相关研究

最近在视频帧插值领域中的相关研究包括：1. EDVR: Video Restoration with Enhanced Deformable Convolutional Networks；2. DAIN: Depth-Aware Video Frame Interpolation；3. TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution。

Frame Interpolation with Consecutive Brownian Bridge Diffusion

提问交流

提问交流