S2LIC: Learned Image Compression with the SwinV2 Block, Adaptive Channel-wise and Global-inter Attention Context

2024年03月21日
  • 简介
    最近,深度学习技术已成功应用于图像压缩领域,实现了卓越的码率-失真性能。设计一种有效且高效的熵模型来估计潜在表示的概率分布是至关重要的。然而,大多数熵模型主要集中在通道和空间信息之间的一维相关处理。本文提出了一种自适应通道和全局关注上下文(ACGC)熵模型,可以在内部切片和跨切片上高效地实现双重特征聚合。具体而言,我们将潜在表示分成不同的切片,然后在并行棋盘上下文中应用ACGC模型,以实现更快的解码速度和更高的码率-失真性能。为了捕捉不同切片之间的冗余全局特征,我们利用自适应全局关注中的可变形关注机制,根据实际空间关系和上下文动态调整关注权重。此外,在主要的转换结构中,我们提出了一个高性能的S2LIC模型。我们引入残差SwinV2 Transformer模型来捕捉全局特征信息,并利用密集块网络作为特征增强模块,以改善转换结构内图像的非线性表示。实验结果表明,我们的方法实现了更快的编码和解码速度,并在PSNR和MS-SSIM指标上优于VTM-17.1和一些最新的学习图像压缩方法。
  • 作者讲解
  • 图表
  • 解决问题
    提出一种自适应通道和全局交互注意力上下文(ACGC)熵模型,以实现双重特征聚合,提高速度和压缩性能。
  • 关键思路
    将潜在表示分成不同的切片,并在平行棋盘上应用ACGC模型以实现更快的解码速度和更高的速率失真性能。利用变形注意力在自适应全局交互注意力中捕获不同切片之间的冗余全局特征。
  • 其它亮点
    实验结果表明,该方法在PSNR和MS-SSIM指标上优于VTM-17.1和一些最近学习的图像压缩方法。使用了自己的数据集,有开源代码。
  • 相关研究
    最近的相关研究包括:'End-to-End Optimized Image Compression via Learnable Soft Quantization','Variational Image Compression with a Scale Hyperprior','Deep Image Compression via Joint Learning of Quantization and Huffman Coding'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问