- 简介随着AIGC的进步,视频帧插值(VFI)已成为现有视频生成框架中至关重要的组成部分,吸引了广泛的研究兴趣。对于VFI任务,相邻帧之间的运动估计在避免运动模糊方面起着关键作用。然而,现有的VFI方法总是难以准确地预测连续帧之间的运动信息,这种不精确的估计导致插值帧模糊和视觉不连贯。在本文中,我们提出了一种新颖的扩散框架,即运动感知潜在扩散模型(MADiff),专门针对VFI任务设计。通过在扩散采样过程中将条件相邻帧之间的运动先验与目标插值帧预测相结合,MADiff逐步改进中间结果,最终生成既视觉平滑又逼真的结果。在基准数据集上进行的大量实验证明,我们的方法实现了最先进的性能,显著优于现有方法,特别是在涉及具有复杂运动的动态纹理的挑战性场景下。
-
- 图表
- 解决问题本论文旨在解决视频帧插值中的运动估计问题,提出了一种新的扩散框架,Motion-Aware Latent Diffusion Models (MADiff),以生成更加平滑和逼真的插值帧。
- 关键思路论文提出了一种基于运动先验的扩散模型,通过在扩散采样过程中将条件相邻帧之间的运动信息与目标插值帧进行预测,逐步优化中间结果,从而生成更加平滑和逼真的插值帧。
- 其它亮点论文在基准数据集上进行了广泛的实验,证明了该方法在动态纹理和复杂运动等具有挑战性的场景下取得了显著的优势,实验结果表明该方法明显优于现有方法。论文还提供了开源代码。
- 最近在这个领域中的相关研究包括:Deep Video Interpolation Using Convolutional Neural Networks、Flow-Grounded Spatial-Temporal Video Frame Synthesis with Multi-Frame Quality Aggregation和Learning to Synthesize Motion Blur and Depth from Videos。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流