Disentangled Motion Modeling for Video Frame Interpolation

简介

视频帧插值（VFI）的目的是合成现有帧之间的中间帧，以增强视觉平滑度和质量。除了基于重建损失的传统方法外，最近的工作采用高质量的生成模型来提高感知质量。然而，它们需要复杂的训练和大量的计算成本来建模像素空间。本文介绍了一种名为“分解运动建模（MoMo）”的基于扩散的VFI方法，通过专注于中间运动建模来提高视觉质量。我们提出了分解的两阶段训练过程，首先训练一个帧合成模型，从输入对及其光流中生成帧。随后，我们提出了一种运动扩散模型，配备了我们设计用于光流的新型扩散U-Net架构，以产生帧之间的双向流。通过利用更简单的低频运动表示，该方法在减少计算需求的同时实现了优越的感知质量，相比于像素空间中的生成建模方法。我们的方法在各种基准测试中超过了最先进的方法，在感知度量方面表现出了其功效和效率。我们的代码可在以下网址找到：https://github.com/JHLew/MoMo。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：本论文旨在通过针对中间运动建模来实现视频帧插值，以提高视觉平滑度和质量。
关键思路

关键思路：论文提出了一种基于扩散的方法，称为分离的运动建模（MoMo），通过聚焦中间运动建模来提高视觉质量。该方法利用了较简单的低频运动表示，从而比像素空间上的生成建模方法具有更高的感知质量和更低的计算成本。
其它亮点

其他亮点：论文提出了分离的两阶段训练过程，首先训练一个帧合成模型，然后提出一个运动扩散模型，使用我们的新型扩散U-Net架构来生成帧之间的双向流。该方法在各种基准测试中优于现有的方法，具有更高的感知度量和更低的计算成本。论文的代码已经开源。
相关研究

相关研究：最近的相关研究包括使用生成模型的视频帧插值方法，例如FlowFrames、SuperSloMo、DAIN等。

Disentangled Motion Modeling for Video Frame Interpolation

提问交流

提问交流