PNeRV: Enhancing Spatial Consistency via Pyramidal Neural Representation for Videos

2024年04月13日
  • 简介
    本文的主要关注点是神经表示视频(NeRV)如何有效地建模其时空一致性。然而,目前的NeRV系统经常面临空间不一致的重大问题,导致感知质量降低。为了解决这个问题,我们介绍了金字塔神经表示视频(PNeRV),它建立在多尺度信息连接上,包括轻量级的重缩放算子、Kronecker全连接层(KFc)和Benign Selective Memory(BSM)机制。KFc受到基础全连接层张量分解的启发,促进了低成本的重缩放和全局相关性建模。BSM能够自适应地将高级特征与细粒度特征合并。此外,我们基于NeRV系统的通用逼近理论进行了分析,并验证了所提出的PNeRV的有效性。我们进行了全面的实验,证明了PNeRV在各种指标(PSNR、SSIM、LPIPS和FVD)下在UVG和DAVIS的视频回归中优于当代NeRV模型,取得了最佳结果。与基础的NeRV相比,在UVG上PNeRV实现了+4.49 dB的PSNR增益和231%的FVD增长,在DAVIS上实现了+3.28 dB的PSNR和634%的FVD增长。
  • 作者讲解
  • 图表
  • 解决问题
    论文提出了Pyramidal Neural Representation for Videos (PNeRV)来解决当前NeRV系统中存在的空间不一致性问题,以提高视频回归的感知质量。
  • 关键思路
    PNeRV是建立在多尺度信息连接基础上的,包括轻量级的缩放运算符、Kronecker全连接层和Benign Selective Memory机制。KFc促进低成本的缩放和全局相关性建模,BSM自适应地将高级特征与细粒度特征融合。
  • 其它亮点
    论文通过实验验证了PNeRV在多个指标上优于当前的NeRV模型,包括PSNR、SSIM、LPIPS和FVD。在UVG数据集上,相比于vanilla NeRV,PNeRV在PSNR上获得了+4.49 dB的增益,在FVD上增加了231%。在DAVIS数据集上,PNeRV在PSNR上获得了+3.28 dB的增益,在FVD上增加了634%。
  • 相关研究
    最近的相关研究包括NeRV模型及其变体,以及其他视频回归和视频生成模型,如STTN、C3D、SlowFast和TecoGAN等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问