- 简介视频压缩旨在通过对现有帧的运动和残差信息进行编码,以重建无缝帧。以前的神经视频压缩方法需要针对三种类型的帧(I帧,P帧和B帧)使用不同的编解码器,这妨碍了统一方法和跨不同视频环境的普适性。Intra-codec技术缺乏inter-codec中的高级运动估计和运动补偿(MEMC),导致框架不完整。我们提出的Intra- & Inter-frame Video Compression(I $^ 2 $ VC)框架采用单个时空编解码器,根据内容重要性指导特征压缩率。这种统一编解码器将帧间依赖性转化为条件编码方案,从而将帧内和帧间压缩集成到一个连贯的策略中。由于缺乏显式的运动数据,仅使用条件编解码器实现有效的帧间压缩存在挑战。为了解决这个问题,我们的方法包括一个隐式的帧间对齐机制。通过预训练扩散去噪过程,利用扩散反转参考特征而不是随机噪声支持初始压缩状态。这个过程允许根据解码特征有选择地去噪动态丰富的区域,从而实现精确的对齐,无需MEMC。我们的实验结果表明,无论是在AI、LD还是RA的各种压缩配置和帧类型下,I $^ 2 $ VC都优于最先进的感知学习编解码器。令人印象深刻的是,与H.266/VVC标准(VTM)相比,它在感知重建性能方面表现出58.4%的提高。官方实现可在https://github.com/GYukai/I2VC找到。
- 图表
- 解决问题论文提出了一种统一的视频压缩框架,旨在解决先前神经视频压缩方法中存在的分散问题,同时提高感知重建性能。
- 关键思路该框架采用单一的时空编解码器,根据内容重要性指导特征压缩率,并将帧间依赖性转化为条件编码方案,从而将帧内和帧间压缩集成到一个统一的策略中。
- 其它亮点论文的实验结果表明,该框架在各种压缩配置和帧类型下优于现有的感知学习编解码器,并且相对于H.266/VVC标准(VTM)具有58.4%的感知重建性能提升。论文还提出了一种隐式帧间对齐机制,避免了需要MEMC的问题。官方实现代码可以在GitHub上找到。
- 在这个领域中,最近的相关研究包括:1. "End-to-end Optimized Video Compression"; 2. "Video Compression with Recurrent Auto-Encoder Networks"; 3. "Deep Video Compression via End-to-end Learning of Recurrent Transformations for Convolutional Neural Networks".
沙发等你来抢
去评论
评论
沙发等你来抢