High Efficiency Image Compression for Large Visual-Language Models

简介

近年来，大型视觉语言模型（LVLMs）在多模态任务中表现出令人印象深刻的性能和有前途的泛化能力，因此在各种应用场景中取代了人类作为视觉信息接收者。本文首创提出了一个可变比特率图像压缩框架，由预编辑模块和端到端编解码器组成，以实现不同LVLMs的有前途的速率-精度性能。特别地，我们提出了一种新的优化策略，专为LVLMs量身定制，而不是针对特定任务或几个代表性任务来优化自适应预编辑网络，该策略是基于令牌级畸变和等级的表示和区分能力设计的。预编辑模块和可变比特率端到端图像编解码器通过基于大型模型语义标记的损失联合训练，为各种数据和任务引入了增强的泛化能力。{实验结果表明，与最先进的编码标准Versatile Video Coding相比，所提出的框架可以有效地实现更好的速率-精度性能。}同时，多模态任务的实验揭示了所提出的框架的鲁棒性和泛化能力。
图表
解决问题

本文旨在提出一种可变比特率图像压缩框架，以实现不同大型视觉语言模型（LVLM）的有前途的速率-准确性性能，并替代人类在各种应用场景中作为视觉信息接收者。
关键思路

本文提出了一种新的优化策略，旨在针对LVLM设计，通过代币级别失真和排名来提高表示和区分能力。同时，通过基于大型模型的语义代币的损失来联合训练预编辑模块和可变比特率端到端图像编解码器，以引入对各种数据和任务的增强泛化能力。
其它亮点

实验结果表明，与最先进的编码标准Versatile Video Coding相比，该框架可以有效地实现更好的速率-准确性性能。与此同时，多模态任务的实验揭示了该框架的鲁棒性和泛化能力。
相关研究

近年来，大型视觉语言模型（LVLMs）在多模态任务中表现出了令人印象深刻的性能和有前途的泛化能力，成为各种应用场景中视觉信息接收者的替代品。相关的研究包括《Image Compression with Hierarchical Autoencoder》、《End-to-End Optimized Image Compression》等。

High Efficiency Image Compression for Large Visual-Language Models

评论