OMR-NET: a two-stage octave multi-scale residual network for screen content image compression

IEEE Signal Processing Letters, 2024
2024年07月11日
  • 简介
    本文介绍了屏幕内容(SC)与自然场景(NS)的不同特点,包括无噪声、重复模式和高对比度等。为了解决当前学习图像压缩(LIC)方法在处理SC方面的不足,我们提出了改进的两阶段八度卷积残差块(IToRB)用于高低频特征提取,以及级联的两阶段多尺度残差块(CTMSRB)用于改进SC中的多尺度学习和非线性。此外,我们采用基于窗口的注意力模块(WAM)来捕捉像素之间的相关性,特别是在图像的高对比度区域。我们还构建了一个多样化的SC图像压缩数据集(SDU-SCICD2K)进行训练,包括文本、图表、图形、动画、电影、游戏和SC图像与NS图像的混合。实验结果表明,我们的方法在SC数据上比在NS数据上更适用,比现有的LIC方法在SC图像的速率失真性能方面表现更好。代码公开在https://github.com/SunshineSki/OMRNet.git。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决当前学习图像压缩方法在屏幕内容(SC)方面的不足,提出了一种针对SC的改进两阶段八度卷积残差块(IToRB)和级联两阶段多尺度残差块(CTMSRB)的方案,并使用基于窗口的注意力模块(WAM)捕捉像素间的相关性。
  • 关键思路
    本论文的关键思路是通过IToRB和CTMSRB来提高SC图像的高低频特征提取和多尺度学习能力,同时使用WAM来捕捉像素间的相关性,进而改善SC图像的压缩效果。
  • 其它亮点
    本论文构建了一个包括文本、图表、图形、动画、电影、游戏和SC图像与NS图像混合的多样化SC图像压缩数据集(SDU-SCICD2K)进行训练,并在SC图像上展示了该方法在速率失真性能方面优于现有的LIC方法。此外,论文还公开了代码。
  • 相关研究
    最近在这个领域的相关研究包括:1. Learning-based image compression for screen content with multi-stage attention and visual quality enhancement;2. Screen Content Image Coding: A Review;3. Deep Learning for Screen Content Image Coding: A Review。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问