VQ-NeRV: A Vector Quantized Neural Representation for Videos

2024年03月19日
  • 简介
    本文介绍了一种基于隐式神经表示(INR)的视频编码方法,它在神经网络中编码视频,表现出在视频压缩和去噪等计算机视觉任务中的优势。然而,INR方法基于内容不可知的嵌入来重建视频帧,这阻碍了它在视频帧回归中的有效性,并限制了它在视频插值中的泛化能力。为了解决这些问题,本文提出了一种名为混合神经表示视频(HNeRV)的方法,其中包含内容自适应的嵌入。然而,HNeRV的压缩比仍然相对较低,这归因于忽视了网络的浅层特征和帧间残差信息。因此,本文提出了一种先进的U形架构,称为向量量化-神经表示视频(VQ-NeRV),它集成了一个新颖的组件——VQ-NeRV块。该块采用码本机制有效地离散化了网络的浅层残差特征和帧间残差信息。这种方法在视频压缩中特别有优势,因为它的结果比量化特征更小。此外,本文还介绍了一种名为浅层码本优化的原始码本优化技术,旨在提高码本的效用和效率。实验评估结果表明,VQ-NeRV在视频回归任务中优于HNeRV,具有更好的重建质量(峰值信噪比(PSNR)增加1-2 dB)、更好的每像素比特率(bpp)效率和改进的视频修复结果。
  • 图表
  • 解决问题
    本文旨在解决Implicit neural representations (INR)在视频压缩和去噪等计算机视觉任务中的局限性,即INR的嵌入式编码方式对视频帧回归的效果有限,且限制了其视频插值的泛化能力。
  • 关键思路
    本文提出了一种新的U型架构——Vector Quantized-NeRV (VQ-NeRV),该架构通过引入VQ-NeRV Block组件,将网络的浅层特征和帧间残差信息离散化,从而在视频压缩方面比HNeRV表现更好。
  • 其它亮点
    本文的亮点包括:引入VQ-NeRV Block组件,将浅层特征和帧间残差信息离散化;提出了一种新的代码本优化技术,即shallow codebook optimization;实验结果表明,VQ-NeRV在视频回归任务中表现优异,重建质量更好,PSNR提高了1-2 dB,bpp效率更高,视频修复结果更好。
  • 相关研究
    在这个领域的相关研究还包括:Implicit Neural Representations with Periodic Activation Functions (NeurIPS 2021)、Deep Video Prior (CVPR 2018)、Learning Representations for Automatic Colorization (CVPR 2016)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论