隐式神经表示将视频存储为神经网络,并已在各种视觉任务中表现出良好的效果,例如视频压缩和去噪。使用帧索引或位置索引作为输入,隐式表示(NeRV,E-NeRV,等等)从固定和内容不可知的嵌入中重构视频。这种嵌入大大限制了视频插值的回归能力和内部泛化。

本文提出了一种用于视频的混合神经表示方法HNeRV,其中可学习的编码器生成内容自适应的嵌入,作为解码器的输入。除了输入嵌入之外,我们引入了HNeRV块,确保模型参数均匀分布在整个网络中,使更高层(靠近输出的层)可以具有存储高分辨率内容和视频细节的更高容量。通过内容自适应嵌入和重新设计的架构,HNeRV在视频回归任务中表现出比隐式方法更好的重建质量(+4.7 PSNR)和收敛速度(16倍更快),并显示出更好的内部泛化能力。

作为简单高效的视频表示方法,与传统编解码器(如H.264、H.265)和基于学习的压缩方法相比,HNeRV也显示出了解码速度、灵活性和部署优势。最后,我们还探讨了HNeRV在视频压缩和视频修复等下游任务中的有效性。

总结:

HNeRV是一种用于视频的混合神经表示方法。它采用了两种不同的方法来表示视频内容:一种是通过对视觉分区进行深度学习对视频帧进行表示,另一种是通过对视频帧进行时间卷积对视频序列进行表示。这两种方法都将视频表示为向量的序列,然后将这些向量与其他信息结合起来,包括音频、文本描述和其他视觉特征,以生成整个视频的混合神经表示。HNeRV采用的方法可以在视频分类、生成和检索等方面发挥重要作用,从而提高视频信息处理的效率和准确性。

内容中包含的图片若涉及版权问题,请及时与我们联系删除