Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

向作者提问

NEW

简介

最近的多模态大语言模型（MLLMs）在补偿MLLMs视觉缺陷方面经常使用大的图像标记，这不仅表现出明显的冗余，而且还极大地加剧了已经很高的计算。标记修剪是加速MLLMs的有效解决方案，但是何时以及如何删除标记仍然是一个挑战。在本文中，我们提出了一种新颖且无需训练的MLLMs有效视觉标记修剪方法，称为FitPrune，它可以根据预定义的预算快速为MLLMs生成完整的修剪配方。具体而言，FitPrune将标记修剪视为MLLM的统计问题，其目标是找到一个最优的修剪方案，可以最小化修剪前后的注意力分布的差异。在实践中，FitPrune可以根据少量推理数据的注意力统计信息快速完成，避免MLLMs昂贵的试验。根据修剪配方，在推理期间，MLLM可以直接删除不同示例的冗余视觉标记。为了验证FitPrune，我们将其应用于一组最近的MLLMs，包括LLaVA-1.5、LLaVA-HR和LLaVA-NEXT，并在一组基准测试上进行了广泛的实验。实验结果表明，我们的FitPrune不仅可以大幅减少计算复杂度，同时保持高性能，例如，LLaVA-NEXT的FLOPs减少了54.9%，仅精度下降了0.5%。值得注意的是，修剪配方可以在约5分钟内获得。我们的代码可在https://github.com/ywh187/FitPrune上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决Multimodal Large Language Models(MLLMs)中大量的图像tokens导致计算量过大的问题，提出了一种有效的可视化token剪枝方法FitPrune。
关键思路

FitPrune将token剪枝视为MLLM的统计问题，旨在找到一种最优的剪枝方案，可以最小化剪枝前后注意力分布的差异。FitPrune可以基于少量推理数据的注意力统计快速完成，避免了MLLM的昂贵试验。剪枝方案可以直接在推理过程中删除不必要的视觉tokens。
其它亮点

论文在LLaVA-1.5、LLaVA-HR和LLaVA-NEXT等MLLM上应用了FitPrune，并在一系列基准测试上进行了广泛的实验。实验结果表明，FitPrune不仅可以大大降低计算复杂度，同时保持高性能，例如对LLaVA-NEXT的FLOPs减少了54.9％，仅有0.5％的精度下降。值得注意的是，剪枝方案可以在约5分钟内获得。代码已在GitHub上开源。
相关研究

近期在这个领域中的相关研究包括DeepSpeed、Sparse Transformers和Compressive Transformers等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问