- 简介最近,隐式神经表示法视频(NeRV)已成为高质量视频表示的一种新方法。然而,现有的研究采用单个网络来表示整个视频,这会隐含地混淆静态和动态信息。这导致无法有效压缩冗余的静态信息,并且缺乏明确建模全局时间一致的动态细节。为了解决上述问题,我们提出了DS-NeRV,它将视频分解为可学习的稀疏静态代码和动态代码,而无需明确的光流或残差监督。通过为两个代码设置不同的采样率并应用加权和和插值采样方法,DS-NeRV有效地利用了冗余的静态信息,同时保持高频细节。此外,我们设计了一个基于跨通道注意力的融合模块,以有效地融合这两个代码进行帧解码。由于分离静态和动态代码表示,我们的方法仅使用0.35M参数即可实现31.2 PSNR的高质量重建,并在许多下游任务中优于现有的NeRV方法。我们的项目网站位于https://haoyan14.github.io/DS-NeRV。
- 图表
- 解决问题本文旨在通过提出DS-NeRV方法来解决现有的NeRV方法中存在的问题,即单个神经网络难以区分静态和动态信息,从而无法有效压缩冗余的静态信息并缺乏对全局时间相干动态细节的明确建模。
- 关键思路DS-NeRV通过将视频分解为稀疏可学习的静态编码和动态编码来解决上述问题,无需显式光流或残差监督。通过为两个编码设置不同的采样率并应用加权求和和插值采样方法,DS-NeRV有效地利用冗余的静态信息同时保持高频细节。此外,作者设计了基于交叉通道注意力的融合模块,以有效地融合这两个编码进行帧解码。
- 其它亮点DS-NeRV方法在仅使用0.35M参数的情况下实现了31.2 PSNR的高质量重建,同时在许多下游任务中优于现有的NeRV方法。作者在项目网站https://haoyan14.github.io/DS-NeRV中公开了代码和数据集。
- 近期在该领域的相关研究包括:Implicit neural representations for video (NeRV)、Deep Video Super-Resolution via Spatio-Temporal Separation Networks和Deep Video Deblurring with Dynamic Convolutional Networks等。
沙发等你来抢
去评论
评论
沙发等你来抢