VFIMamba: Video Frame Interpolation with State Space Models

2024年07月02日
  • 简介
    在视频帧插值(VFI)中,帧间建模是生成中间帧至关重要的。目前的方法主要依赖于卷积或基于注意力的模型,通常要么缺乏足够的感受野,要么需要大量的计算开销。最近,专门为长序列建模量身定制的选择性状态空间模型(S6)已经出现,提供了线性复杂度和数据依赖建模能力。在本文中,我们提出了VFIMamba,一种利用S6模型进行高效动态帧间建模的新型帧插值方法。我们的方法引入了混合SSM块(MSB),它最初以交替的方式重新排列相邻帧的标记,然后应用多方向的S6建模。这种设计有助于在保持线性复杂度的同时,在帧之间高效传递信息。此外,我们还引入了一种新颖的课程学习策略,逐步培养对不同运动幅度的帧间动态建模的熟练度,充分释放了S6模型的潜力。实验结果表明,我们的方法在各种基准测试中都达到了最先进的性能,特别是在高分辨率场景中表现优异。特别是,在X-TEST数据集上,VFIMamba对4K帧和2K帧分别展示了0.80 dB和0.96 dB的显著提高。
  • 图表
  • 解决问题
    VFIMamba论文旨在解决视频帧插值中的中间帧建模问题,提出了一种基于选择性状态空间模型的新方法,旨在提高计算效率和数据建模能力。
  • 关键思路
    VFIMamba采用混合SSM块(MSB)来实现高效和动态的帧间建模,该块通过交错排列相邻帧的令牌并应用多方向SSM建模来实现信息的有效传输,同时保持线性复杂度。此外,论文还引入了一种新的课程学习策略,逐步培养建模不同运动幅度下的帧间动态的能力。
  • 其它亮点
    论文在多个基准测试中表现出最先进的性能,特别是在高分辨率场景下表现出色。实验使用了多个数据集,包括X-TEST数据集,并且在Github上公开了源代码。论文还讨论了一些值得进一步研究的方向,如如何在更长的序列中使用MSB。
  • 相关研究
    在这个领域中,最近的相关研究包括:1)Convolutional Sequence-to-Sequence Learning for Video Frame Interpolation; 2)Softmax Splatting for Video Frame Interpolation; 3)Dynamic Scene Video Frame Synthesis and Interpolation with a Generative Adversarial Network。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论