- 简介最近的多模态大语言模型(MLLMs)在补偿MLLMs视觉缺陷方面经常使用大的图像标记,这不仅表现出明显的冗余,而且还极大地加剧了已经很高的计算。标记修剪是加速MLLMs的有效解决方案,但是何时以及如何删除标记仍然是一个挑战。在本文中,我们提出了一种新颖且无需训练的MLLMs有效视觉标记修剪方法,称为FitPrune,它可以根据预定义的预算快速为MLLMs生成完整的修剪配方。具体而言,FitPrune将标记修剪视为MLLM的统计问题,其目标是找到一个最优的修剪方案,可以最小化修剪前后的注意力分布的差异。在实践中,FitPrune可以根据少量推理数据的注意力统计信息快速完成,避免MLLMs昂贵的试验。根据修剪配方,在推理期间,MLLM可以直接删除不同示例的冗余视觉标记。为了验证FitPrune,我们将其应用于一组最近的MLLMs,包括LLaVA-1.5、LLaVA-HR和LLaVA-NEXT,并在一组基准测试上进行了广泛的实验。实验结果表明,我们的FitPrune不仅可以大幅减少计算复杂度,同时保持高性能,例如,LLaVA-NEXT的FLOPs减少了54.9%,仅精度下降了0.5%。值得注意的是,修剪配方可以在约5分钟内获得。我们的代码可在https://github.com/ywh187/FitPrune上获得。
-
- 图表
- 解决问题本论文旨在解决Multimodal Large Language Models(MLLMs)中大量的图像tokens导致计算量过大的问题,提出了一种有效的可视化token剪枝方法FitPrune。
- 关键思路FitPrune将token剪枝视为MLLM的统计问题,旨在找到一种最优的剪枝方案,可以最小化剪枝前后注意力分布的差异。FitPrune可以基于少量推理数据的注意力统计快速完成,避免了MLLM的昂贵试验。剪枝方案可以直接在推理过程中删除不必要的视觉tokens。
- 其它亮点论文在LLaVA-1.5、LLaVA-HR和LLaVA-NEXT等MLLM上应用了FitPrune,并在一系列基准测试上进行了广泛的实验。实验结果表明,FitPrune不仅可以大大降低计算复杂度,同时保持高性能,例如对LLaVA-NEXT的FLOPs减少了54.9%,仅有0.5%的精度下降。值得注意的是,剪枝方案可以在约5分钟内获得。代码已在GitHub上开源。
- 近期在这个领域中的相关研究包括DeepSpeed、Sparse Transformers和Compressive Transformers等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流