An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

简介

在这项研究中，我们发现了大规模视觉语言模型（LVLMs）中存在的低效注意现象，尤其是在像LLaVA-1.5、QwenVL-Chat和Video-LLaVA等知名模型中。我们发现，在流行的LVLMs的深层中，视觉令牌的注意计算极其低效，这表明需要与文本数据处理相比更稀疏的方法。为此，我们引入了FastV，这是一种多功能即插即用方法，旨在通过学习早期层中的自适应注意模式和在后续层中修剪视觉令牌来优化计算效率。我们的评估证明了FastV在广泛的图像和视频理解任务中能够显著降低计算成本（例如，LLaVA-1.5-13B的FLOP降低了45％），而不会牺牲性能。FastV的计算效率和性能权衡是高度可定制和帕累托有效的。它可以压缩一个13B参数模型的FLOP，以实现比7B参数模型更低的预算，同时仍然保持卓越的性能。我们认为FastV在LVLMs在边缘设备和商业模型中的部署中具有实际价值。代码已发布在https://github.com/pkunlp-icler/FastV。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决大型视觉语言模型（LVLMs）中的注意力计算效率问题，特别是在LLaVA-1.5、QwenVL-Chat和Video-LLaVA等流行模型的深层中存在极低效的注意力计算现象。
关键思路

FastV是一种高效的视觉注意力计算方法，通过在早期层中学习自适应的注意力模式和在后续层中修剪视觉标记来优化计算效率。FastV能够大幅降低计算成本，而不会影响广泛的图像和视频理解任务的性能。
其它亮点

该论文提出了一种高效的视觉注意力计算方法FastV，并在多个数据集上进行了实验验证，证明了其在计算效率和性能之间的权衡是高度可定制和Pareto-efficient的。FastV的代码已经在GitHub上开源。
相关研究

最近，在大型视觉语言模型（LVLMs）领域中，还有一些相关的研究，如ViLBERT、VisualBERT、LXMERT等。

An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

提问交流

提问交流