Rate-Distortion-Cognition Controllable Versatile Neural Image Compression

2024年07月16日
  • 简介
    最近,由于学习为基础的图像压缩和分析技术的快速进步,机器图像编码(ICM)领域引起了极大的关注和重大的进展。先前的研究通常需要训练单独的编解码器来支持各种比特率级别、机器任务和网络,因此缺乏灵活性和实用性。为了解决这些挑战,我们提出了一种速率-失真-认知可控的通用图像压缩方法,该方法允许用户使用单个神经模型调整比特率(即速率)、图像重建质量(即失真)和机器任务准确性(即认知),实现超级可控性。具体而言,我们首先在主要压缩分支中引入了认知导向的损失来训练适用于不同机器任务的编解码器。通过调节潜在编码通道的量化程度,该分支实现可变比特率。为了进一步提高重建图像的质量,我们采用辅助分支来使用可扩展的比特流补充残差信息。最终,两个分支使用“$\beta x + (1-\beta) y$”的插值策略来实现平衡的认知-失真权衡。广泛的实验表明,我们的方法可以产生令人满意的ICM性能和灵活的速率-失真-认知控制。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决图像编码中存在的灵活性和实用性问题,提出一种可以通过单个神经模型实现比特率、图像重建质量和机器任务准确性的控制的图像压缩方法。
  • 关键思路
    该方法利用主要压缩分支中的认知导向损失,通过调节潜在代码通道的量化程度来实现可变比特率。同时,采用辅助分支来通过可扩展的比特流补充残差信息,从而提高重建图像的质量。最终,两个分支使用“βx +(1-β)y”插值策略来实现平衡的认知-失真权衡。
  • 其它亮点
    论文通过大量实验展示了该方法在图像编码中的灵活性和实用性,同时提出了一种可以通过单个神经模型实现比特率、图像重建质量和机器任务准确性的控制的方法。论文使用了多个数据集进行实验,并开源了代码,值得进一步研究。
  • 相关研究
    与该论文相关的研究包括:1. End-to-end optimized image compression with scaled entropy coding(2017);2. Joint autoregressive and hierarchical priors for learned image compression(2018);3. A simple framework for contrastive learning of visual representations(2020)等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问