Generalizable Implicit Motion Modeling for Video Frame Interpolation

2024年07月11日
  • 简介
    运动建模对于基于流的视频帧插值(VFI)至关重要。现有的范式要么考虑双向流的线性组合,要么直接针对给定时间戳预测双向流,而没有探索有利的运动先验,因此缺乏有效建模现实世界视频中时空动态的能力。为了解决这个限制,本研究引入了通用隐式运动建模(GIMM),这是一种新颖有效的VFI运动建模方法。具体而言,为了使GIMM成为一种有效的运动建模范式,我们设计了一个运动编码管道,用于对从预训练的流估计器中提取的双向流进行建模,从而有效地表示输入特定的运动先验。然后,我们通过自适应坐标系神经网络隐式地预测两个相邻输入帧之间的任意时间步长的光流,其中空时坐标和运动先验作为输入。我们的GIMM可以与现有的基于流的VFI工作平滑集成,无需进一步修改。我们证明,GIMM在VFI基准测试中的表现优于当前的最新技术水平。
  • 图表
  • 解决问题
    本论文旨在解决流媒体视频帧插值(VFI)中的运动建模问题。现有的方法要么考虑双向流的线性组合,要么直接预测给定时间戳的双向流而不探索有利的运动先验知识,因此缺乏有效建模现实世界视频中的时空动态的能力。
  • 关键思路
    为了解决这个问题,本文提出了一种新的方法——通用隐式运动建模(GIMM),通过设计一个运动编码管道来从预训练流估计器提取的双向流中建模时空运动潜在变量,有效地表示输入特定的运动先验知识。然后,通过自适应坐标为基础的神经网络,使用时空坐标和运动潜在变量来隐式预测两个相邻输入帧之间的任意时间步长的光流。
  • 其它亮点
    本文提出的GIMM方法可以与现有的基于流的VFI方法无缝集成,且在VFI基准测试中表现优于现有技术水平。实验使用了多个数据集,并提供了开源代码。
  • 相关研究
    近期的相关研究包括:'Deep Video Interpolation Using Convolutional Neural Networks','Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation','Quadratic Video Interpolation'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论