I$^2$VC: A Unified Framework for Intra- & Inter-frame Video Compression

2024年05月23日
  • 简介
    视频压缩旨在通过对现有帧的运动和残差信息进行编码,以重建无缝帧。以前的神经视频压缩方法需要针对三种类型的帧(I帧,P帧和B帧)使用不同的编解码器,这妨碍了统一方法和跨不同视频环境的普适性。Intra-codec技术缺乏inter-codec中的高级运动估计和运动补偿(MEMC),导致框架不完整。我们提出的Intra- & Inter-frame Video Compression(I $^ 2 $ VC)框架采用单个时空编解码器,根据内容重要性指导特征压缩率。这种统一编解码器将帧间依赖性转化为条件编码方案,从而将帧内和帧间压缩集成到一个连贯的策略中。由于缺乏显式的运动数据,仅使用条件编解码器实现有效的帧间压缩存在挑战。为了解决这个问题,我们的方法包括一个隐式的帧间对齐机制。通过预训练扩散去噪过程,利用扩散反转参考特征而不是随机噪声支持初始压缩状态。这个过程允许根据解码特征有选择地去噪动态丰富的区域,从而实现精确的对齐,无需MEMC。我们的实验结果表明,无论是在AI、LD还是RA的各种压缩配置和帧类型下,I $^ 2 $ VC都优于最先进的感知学习编解码器。令人印象深刻的是,与H.266/VVC标准(VTM)相比,它在感知重建性能方面表现出58.4%的提高。官方实现可在https://github.com/GYukai/I2VC找到。
  • 图表
  • 解决问题
    论文提出了一种统一的视频压缩框架,旨在解决先前神经视频压缩方法中存在的分散问题,同时提高感知重建性能。
  • 关键思路
    该框架采用单一的时空编解码器,根据内容重要性指导特征压缩率,并将帧间依赖性转化为条件编码方案,从而将帧内和帧间压缩集成到一个统一的策略中。
  • 其它亮点
    论文的实验结果表明,该框架在各种压缩配置和帧类型下优于现有的感知学习编解码器,并且相对于H.266/VVC标准(VTM)具有58.4%的感知重建性能提升。论文还提出了一种隐式帧间对齐机制,避免了需要MEMC的问题。官方实现代码可以在GitHub上找到。
  • 相关研究
    在这个领域中,最近的相关研究包括:1. "End-to-end Optimized Video Compression"; 2. "Video Compression with Recurrent Auto-Encoder Networks"; 3. "Deep Video Compression via End-to-end Learning of Recurrent Transformations for Convolutional Neural Networks".
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论