- 简介本文的主要关注点是神经表示视频(NeRV)如何有效地建模其时空一致性。然而,目前的NeRV系统经常面临空间不一致的重大问题,导致感知质量降低。为了解决这个问题,我们介绍了金字塔神经表示视频(PNeRV),它建立在多尺度信息连接上,包括轻量级的重缩放算子、Kronecker全连接层(KFc)和Benign Selective Memory(BSM)机制。KFc受到基础全连接层张量分解的启发,促进了低成本的重缩放和全局相关性建模。BSM能够自适应地将高级特征与细粒度特征合并。此外,我们基于NeRV系统的通用逼近理论进行了分析,并验证了所提出的PNeRV的有效性。我们进行了全面的实验,证明了PNeRV在各种指标(PSNR、SSIM、LPIPS和FVD)下在UVG和DAVIS的视频回归中优于当代NeRV模型,取得了最佳结果。与基础的NeRV相比,在UVG上PNeRV实现了+4.49 dB的PSNR增益和231%的FVD增长,在DAVIS上实现了+3.28 dB的PSNR和634%的FVD增长。
-
- 图表
- 解决问题论文提出了Pyramidal Neural Representation for Videos (PNeRV)来解决当前NeRV系统中存在的空间不一致性问题,以提高视频回归的感知质量。
- 关键思路PNeRV是建立在多尺度信息连接基础上的,包括轻量级的缩放运算符、Kronecker全连接层和Benign Selective Memory机制。KFc促进低成本的缩放和全局相关性建模,BSM自适应地将高级特征与细粒度特征融合。
- 其它亮点论文通过实验验证了PNeRV在多个指标上优于当前的NeRV模型,包括PSNR、SSIM、LPIPS和FVD。在UVG数据集上,相比于vanilla NeRV,PNeRV在PSNR上获得了+4.49 dB的增益,在FVD上增加了231%。在DAVIS数据集上,PNeRV在PSNR上获得了+3.28 dB的增益,在FVD上增加了634%。
- 最近的相关研究包括NeRV模型及其变体,以及其他视频回归和视频生成模型,如STTN、C3D、SlowFast和TecoGAN等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流