Towards Adaptive Visual Token Pruning for Large Multimodal Models

向作者提问

NEW

简介

大规模多模态模型（LMMs）在各种任务中取得了显著的成功。这类模型通常将视觉输入编码为密集的 token 序列，然后将其与文本 token 拼接，并由语言模型共同处理。然而，在推理过程中，token 数量的增加显著提高了计算和内存开销。Token 剪枝已成为解决这一问题的一种有前景的方法。现有的 token 剪枝方法通常依赖于高成本的校准过程或次优的重要性度量标准，导致保留的 token 存在冗余。本文分析了视觉 token 和文本 token 之间的冗余差异，并提出仅对视觉 token 进行剪枝。在此基础上，我们提出了一种视觉 token 剪枝策略，明确保留跨模态对齐能力和模态内部的信息多样性。我们引入了一种基于互信息的 token 剪枝策略，去除那些在语义上与文本 token 不对齐的视觉 token，从而有效保留视觉和文本模态之间的对齐关系。为了进一步提升保留 token 的表征质量，我们还通过在嵌入空间中最大化成对距离的期望值来进一步剪枝冗余的视觉 token，该问题通过贪心算法得以高效求解。大量实验表明，我们的方法在显著减少 token 数量的同时仍能保持良好的性能，在如 LLaVA-1.5-7B 和 LLaVA-NEXT-7B 等模型上实现了 88.9% 的 token 压缩率，推理速度提升了 56.7%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决大型多模态模型（LMMs）在推理过程中因视觉和文本token联合处理导致的高计算和内存成本问题。现有token剪枝方法存在校准成本高或重要性度量次优的问题，导致保留的token冗余。这是一个当前多模态模型部署和效率优化中非常现实且亟待解决的问题。
关键思路

论文提出了一种新的视觉token剪枝策略，仅对视觉token进行剪枝，而非同时处理视觉和文本token。其关键思路包括：1）基于互信息的剪枝策略，去除与文本token语义不一致的视觉token，保持跨模态对齐；2）通过最大化嵌入空间中的成对距离来去除冗余的视觉token，使用贪心算法高效实现。这种方法在剪枝策略的设计上具有新颖性，兼顾了对齐性和信息多样性。
其它亮点

1. 在LLaVA-1.5-7B和LLaVA-NEXT-7B等模型上进行了大量实验验证，剪枝后视觉token减少了88.9%，推理速度提升了56.7%。 2. 剪枝策略不仅提升了效率，还保持了模型性能，说明其在不牺牲质量的前提下实现了压缩。 3. 论文通过理论分析和实验验证了视觉token比文本token更具冗余性，支持了仅对视觉token剪枝的设计。 4. 该方法为多模态模型的轻量化部署提供了新的思路，未来可扩展到更多模型架构和任务中。
相关研究

1. 『Dynamic Sparse Training: A Survey』探讨了神经网络中稀疏训练的方法，为token剪枝提供了理论基础。 2. 『Efficient Training of Vision Transformers via Token-level Pruning』提出了基于token级别的视觉Transformer剪枝方法。 3. 『Cross-modal Pruning for Multimodal Learning』探索了跨模态剪枝的初步方法，但未考虑模态间的冗余差异。 4. 『LLaVA: Large Language and Vision Assistant』是论文中实验所使用的基线模型之一。 5. 『Sparsity in Deep Learning』综述了深度学习中的稀疏化技术，包括结构化剪枝和动态token选择。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问