Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

2024年09月16日
  • 简介
    最近的多模态大语言模型(MLLMs)在补偿MLLMs视觉缺陷方面经常使用大的图像标记,这不仅表现出明显的冗余,而且还极大地加剧了已经很高的计算。标记修剪是加速MLLMs的有效解决方案,但是何时以及如何删除标记仍然是一个挑战。在本文中,我们提出了一种新颖且无需训练的MLLMs有效视觉标记修剪方法,称为FitPrune,它可以根据预定义的预算快速为MLLMs生成完整的修剪配方。具体而言,FitPrune将标记修剪视为MLLM的统计问题,其目标是找到一个最优的修剪方案,可以最小化修剪前后的注意力分布的差异。在实践中,FitPrune可以根据少量推理数据的注意力统计信息快速完成,避免MLLMs昂贵的试验。根据修剪配方,在推理期间,MLLM可以直接删除不同示例的冗余视觉标记。为了验证FitPrune,我们将其应用于一组最近的MLLMs,包括LLaVA-1.5、LLaVA-HR和LLaVA-NEXT,并在一组基准测试上进行了广泛的实验。实验结果表明,我们的FitPrune不仅可以大幅减少计算复杂度,同时保持高性能,例如,LLaVA-NEXT的FLOPs减少了54.9%,仅精度下降了0.5%。值得注意的是,修剪配方可以在约5分钟内获得。我们的代码可在https://github.com/ywh187/FitPrune上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决Multimodal Large Language Models(MLLMs)中大量的图像tokens导致计算量过大的问题,提出了一种有效的可视化token剪枝方法FitPrune。
  • 关键思路
    FitPrune将token剪枝视为MLLM的统计问题,旨在找到一种最优的剪枝方案,可以最小化剪枝前后注意力分布的差异。FitPrune可以基于少量推理数据的注意力统计快速完成,避免了MLLM的昂贵试验。剪枝方案可以直接在推理过程中删除不必要的视觉tokens。
  • 其它亮点
    论文在LLaVA-1.5、LLaVA-HR和LLaVA-NEXT等MLLM上应用了FitPrune,并在一系列基准测试上进行了广泛的实验。实验结果表明,FitPrune不仅可以大大降低计算复杂度,同时保持高性能,例如对LLaVA-NEXT的FLOPs减少了54.9%,仅有0.5%的精度下降。值得注意的是,剪枝方案可以在约5分钟内获得。代码已在GitHub上开源。
  • 相关研究
    近期在这个领域中的相关研究包括DeepSpeed、Sparse Transformers和Compressive Transformers等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问