PNeRV: Enhancing Spatial Consistency via Pyramidal Neural Representation for Videos

简介

本文的主要关注点是神经表示视频（NeRV）如何有效地建模其时空一致性。然而，目前的NeRV系统经常面临空间不一致的重大问题，导致感知质量降低。为了解决这个问题，我们介绍了金字塔神经表示视频（PNeRV），它建立在多尺度信息连接上，包括轻量级的重缩放算子、Kronecker全连接层（KFc）和Benign Selective Memory（BSM）机制。KFc受到基础全连接层张量分解的启发，促进了低成本的重缩放和全局相关性建模。BSM能够自适应地将高级特征与细粒度特征合并。此外，我们基于NeRV系统的通用逼近理论进行了分析，并验证了所提出的PNeRV的有效性。我们进行了全面的实验，证明了PNeRV在各种指标（PSNR、SSIM、LPIPS和FVD）下在UVG和DAVIS的视频回归中优于当代NeRV模型，取得了最佳结果。与基础的NeRV相比，在UVG上PNeRV实现了+4.49 dB的PSNR增益和231%的FVD增长，在DAVIS上实现了+3.28 dB的PSNR和634%的FVD增长。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文提出了Pyramidal Neural Representation for Videos (PNeRV)来解决当前NeRV系统中存在的空间不一致性问题，以提高视频回归的感知质量。
关键思路

PNeRV是建立在多尺度信息连接基础上的，包括轻量级的缩放运算符、Kronecker全连接层和Benign Selective Memory机制。KFc促进低成本的缩放和全局相关性建模，BSM自适应地将高级特征与细粒度特征融合。
其它亮点

论文通过实验验证了PNeRV在多个指标上优于当前的NeRV模型，包括PSNR、SSIM、LPIPS和FVD。在UVG数据集上，相比于vanilla NeRV，PNeRV在PSNR上获得了+4.49 dB的增益，在FVD上增加了231%。在DAVIS数据集上，PNeRV在PSNR上获得了+3.28 dB的增益，在FVD上增加了634%。
相关研究

最近的相关研究包括NeRV模型及其变体，以及其他视频回归和视频生成模型，如STTN、C3D、SlowFast和TecoGAN等。

PNeRV: Enhancing Spatial Consistency via Pyramidal Neural Representation for Videos

提问交流

提问交流