论文地址:https://arxiv.org/pdf/2011.06294.pdf

开源代码:https://github.com/MegEngine/ECCV2022-RIFE

摘要

实时视频帧插值(VFI)在视频处理、媒体播放器和显示设备中非常有用。我们提出了一种用于VFI的实时中间流估计算法RIFE。为了实现高质量的基于流的VFI方法,RIFE使用了一个名为IFNet的神经网络,它可以以更快的速度对中间流进行端到端的估计。为了稳定IFNet训练,提高IFNet的整体性能,设计了一种特权蒸馏方案。RIFE不依赖于预先训练的光流模型,可以支持随时间编码输入的任意时间步帧插值。实验表明,RIFE在几个公共基准上达到了最先进的性能。与流行的SuperSlomo和DAIN方法相比,RIFE速度快4-27倍,产生更好的结果。此外,由于时间编码,RIFE可以扩展到更广泛的应用。

主要贡献

概括来说,我们的主要贡献包括:

  • 我们设计了一个有效的IFNet来近似中间流,并引入了特权蒸馏方案来提高性能。
  • 我们的实验表明,RIFE在几个公共基准上都达到了SOTA的性能,尤其是在任意时间帧插值的场景中。
  • 由于RIFE具有灵活的时域编码,因此可以扩展到深度图插值和动态场景拼接等应用领域。

实验

我们首先介绍了评估的基准。然后,我们提供了不同计算成本的模型变体。我们将这些模型与有代表性的SOTA方法进行了比较。此外,我们还展示了使用RIFE生成任意时间步帧和其他应用程序的能力。进行了消融研究来分析我们的设计。最后,我们讨论了RIFE的一些局限性。

内容中包含的图片若涉及版权问题,请及时与我们联系删除