- 简介视觉-语言模型(VLMs)在各种多模态任务中表现出显著的成功,但大型VLM由于需要处理大量视觉标记而面临显著的效率挑战。一种加速大型VLM推理的有前景的方法是使用部分信息,如特定层的注意力图,来评估标记的重要性并剪枝不那么重要的标记。然而,我们的研究揭示了三个关键见解:(i) 部分注意力信息不足以准确识别关键视觉标记,导致在低标记保留率下性能不佳;(ii) 全局注意力信息,如跨所有层聚合的注意力图,更有效地保留了重要标记,并在激进剪枝下保持了相当的性能。然而,从所有层获取注意力图需要完整的推理过程,这增加了计算负担,因此在现有方法中是不切实际的;(iii) 从小型VLM聚合的全局注意力图与大型VLM的非常相似,这表明了一种高效的替代方案。基于这些发现,我们提出了一种**无需训练**的方法,即**小VLM引导大VLM加速**(**SGL**)。具体而言,我们利用从小型VLM聚合的注意力图来指导大型VLM中的视觉标记剪枝。此外,还开发了一种早期退出机制,以充分利用小型VLM的预测,在必要时动态调用大型VLM,从而在准确性和计算之间实现更好的平衡。广泛的评估显示,SGL在11个基准测试中表现出有效性和泛化性,能够达到高达91%的视觉标记剪枝率,同时保持竞争力的性能。
- 图表
- 解决问题该论文旨在解决大型视觉-语言模型(VLMs)在多模态任务中的效率挑战,特别是由于处理大量视觉标记而导致的计算资源消耗问题。这是一个在深度学习和多模态处理领域广泛存在的问题。
- 关键思路论文提出了一种训练无关的方法——小VLM引导加速大VLM(SGL),通过利用小型VLM生成的全局注意力图来指导大型VLM中的视觉标记剪枝。此外,还引入了早期退出机制,以进一步提高效率。这一方法在不牺牲性能的前提下显著减少了计算量,为现有方法提供了新的解决方案。
- 其它亮点论文的关键亮点包括:(1) 使用小VLM的全局注意力图来指导大VLM的视觉标记剪枝,这种方法不仅有效,而且计算成本低;(2) 引入了动态调用大VLM的早期退出机制,进一步优化了计算效率;(3) 在11个基准测试中进行了广泛的评估,展示了SGL方法的高效性和通用性;(4) 实现了高达91%的视觉标记剪枝率,同时保持了竞争力的性能。论文没有提及代码是否开源,但提供了详细的实验设计和数据集信息。
- 近年来,关于加速大型VLM的研究有很多,例如:(1) 'Token Pruning for Accelerating Vision Transformers' 提出了基于重要性的标记剪枝方法;(2) 'Efficient Vision-Language Pre-training with Lightweight Adapter Modules' 通过轻量级适配器模块来加速预训练过程;(3) 'Dynamic Sparse Training for Efficient Vision-Language Models' 探索了动态稀疏训练方法以提高模型效率。这些研究与SGL方法相辅相成,共同推动了该领域的进步。
沙发等你来抢
去评论
评论
沙发等你来抢