Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity

2024年03月05日
  • 简介
    最近的文本引导图像压缩技术取得了很大的进展,可以增强重建图像的感知质量。然而,这些方法往往会显著降低像素级保真度,限制了它们的实用性。为了填补这一空白,我们开发了一种新的文本引导图像压缩算法,既实现了高感知质量,又实现了高像素级保真度。我们提出了一个压缩框架,主要通过文本自适应编码和联合图像-文本损失训练来利用文本信息。通过这样做,我们避免了基于文本引导生成模型的解码,这些模型以高生成多样性著称,有效利用了文本的语义信息。在各种数据集上的实验结果表明,我们的方法可以实现高像素级和感知质量,无论是人类还是机器生成的字幕。特别地,我们的方法在LPIPS方面优于所有基线方法,当我们使用更加精心生成的字幕时,还有更大的改进空间。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在开发一种新的基于文本引导的图像压缩算法,既能够实现高感知质量,又能够实现高像素保真度。该算法试图解决当前文本引导图像压缩算法在像素保真度方面受到限制的问题。
  • 关键思路
    该算法主要通过文本自适应编码和联合图像文本损失的训练来利用文本信息,从而避免了基于文本引导生成模型的解码,并有效地利用了文本的语义信息。该算法在各种数据集上进行了实验,无论是人工生成的说明还是机器生成的说明,都能够实现高像素级和感知质量。
  • 其它亮点
    该算法在实验中表现出色,使用了多个数据集进行测试,并且能够处理人工生成的说明和机器生成的说明。该算法的一个亮点是它能够实现高感知质量和高像素保真度,而不像其他文本引导图像压缩算法一样只能实现其中一种。此外,该算法还避免了基于文本引导生成模型的解码,有效利用了文本的语义信息。
  • 相关研究
    最近的相关研究包括基于文本的图像生成和图像压缩。其中一些研究包括:"Generative Adversarial Text-to-Image Synthesis", "Semantic Image Synthesis with Spatially-Adaptive Normalization", "Generative Adversarial Networks"等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问