VoCo-LLaMA: Towards Vision Compression with Large Language Models

简介

视觉语言模型（VLMs）在各种多模态任务中取得了显著的成功，但它们通常会受到有限上下文窗口和处理高分辨率图像输入和视频的高计算成本的限制。视觉压缩可以通过减少视觉令牌数量来缓解这个问题。以前的方法使用外部模块压缩视觉令牌，并强制LLMs理解压缩的令牌，导致视觉信息的丢失。然而，LLMs对视觉令牌的理解范式在压缩学习过程中并没有被充分利用。我们提出了VoCo-LLaMA，这是一种使用LLMs压缩视觉令牌的第一种方法。通过在视觉指令调整阶段引入视觉压缩令牌，并利用注意力蒸馏，我们的方法将LLMs对视觉令牌的理解蒸馏到它们处理VoCo令牌的过程中。VoCo-LLaMA促进了有效的视觉压缩，并提高了推理阶段的计算效率。具体而言，我们的方法在压缩比为576×时实现了最小的性能损失，导致FLOPs减少了高达94.8％，推理时间加速了69.6％。此外，通过使用视频帧的时间序列压缩令牌序列进行连续训练，VoCo-LLaMA展示了理解时间相关性的能力，在流行的视频问答基准测试中优于以前的方法。我们的方法为释放VLMs的上下文窗口的全部潜力提供了一种有前途的方法，从而实现了更可扩展的多模态应用。项目页面以及相关代码可通过此https URL访问。
图表
解决问题

本论文旨在解决视觉-语言模型在处理高分辨率图像和视频时受限于有限的上下文窗口和高计算成本的问题，提出了使用LLMs压缩视觉令牌的方法。
关键思路

论文提出了VoCo-LLaMA方法，通过在视觉指令调整阶段引入视觉压缩令牌并利用注意力蒸馏，将LLMs对视觉令牌的理解方式蒸馏到对VoCo令牌的处理中，从而实现有效的视觉压缩并提高推理阶段的计算效率。
其它亮点

VoCo-LLaMA方法在压缩比达到576x时，仍能保持最小的性能损失，推理时间加速69.6%，FLOPs减少94.8%。同时，通过使用时间序列压缩令牌序列来进行连续训练，VoCo-LLaMA展现了理解时间相关性的能力，在流行的视频问答基准测试中优于以前的方法。
相关研究

在最近的相关研究中，也有一些使用压缩技术来提高视觉-语言模型的效率的方法，例如VQ-VAE和DALL-E。

VoCo-LLaMA: Towards Vision Compression with Large Language Models

评论