I$^2$VC: A Unified Framework for Intra- & Inter-frame Video Compression

简介

视频压缩旨在通过对现有帧的运动和残差信息进行编码，以重建无缝帧。以前的神经视频压缩方法需要针对三种类型的帧（I帧，P帧和B帧）使用不同的编解码器，这妨碍了统一方法和跨不同视频环境的普适性。Intra-codec技术缺乏inter-codec中的高级运动估计和运动补偿（MEMC），导致框架不完整。我们提出的Intra- & Inter-frame Video Compression（I $^ 2 $ VC）框架采用单个时空编解码器，根据内容重要性指导特征压缩率。这种统一编解码器将帧间依赖性转化为条件编码方案，从而将帧内和帧间压缩集成到一个连贯的策略中。由于缺乏显式的运动数据，仅使用条件编解码器实现有效的帧间压缩存在挑战。为了解决这个问题，我们的方法包括一个隐式的帧间对齐机制。通过预训练扩散去噪过程，利用扩散反转参考特征而不是随机噪声支持初始压缩状态。这个过程允许根据解码特征有选择地去噪动态丰富的区域，从而实现精确的对齐，无需MEMC。我们的实验结果表明，无论是在AI、LD还是RA的各种压缩配置和帧类型下，I $^ 2 $ VC都优于最先进的感知学习编解码器。令人印象深刻的是，与H.266/VVC标准（VTM）相比，它在感知重建性能方面表现出58.4％的提高。官方实现可在https://github.com/GYukai/I2VC找到。
图表
解决问题

论文提出了一种统一的视频压缩框架，旨在解决先前神经视频压缩方法中存在的分散问题，同时提高感知重建性能。
关键思路

该框架采用单一的时空编解码器，根据内容重要性指导特征压缩率，并将帧间依赖性转化为条件编码方案，从而将帧内和帧间压缩集成到一个统一的策略中。
其它亮点

论文的实验结果表明，该框架在各种压缩配置和帧类型下优于现有的感知学习编解码器，并且相对于H.266/VVC标准（VTM）具有58.4%的感知重建性能提升。论文还提出了一种隐式帧间对齐机制，避免了需要MEMC的问题。官方实现代码可以在GitHub上找到。
相关研究

在这个领域中，最近的相关研究包括：1. "End-to-end Optimized Video Compression"; 2. "Video Compression with Recurrent Auto-Encoder Networks"; 3. "Deep Video Compression via End-to-end Learning of Recurrent Transformations for Convolutional Neural Networks".

I$^2$VC: A Unified Framework for Intra- & Inter-frame Video Compression

评论