Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference

向作者提问

NEW

简介

多模态大语言模型（MLLMs）由于参数庞大和需要额外的输入令牌来表示视觉信息，因此需要大量计算来进行推理。在此，我们介绍了Visual Tokens Withdrawal (VTW)，这是一个即插即用的模块，可加速MLLMs进行快速推理。我们的方法受到两个有趣现象的启发：（1）在LLMs中普遍存在的注意力下沉现象也存在于MLLMs中，表明初始令牌和最近的令牌获得了大部分的注意力，而深层的中间视觉令牌获得的注意力较少；（2）信息迁移的存在，这意味着视觉信息在MLLMs的前几层中被传递给后续的文本令牌。根据我们的发现，我们得出结论：在MLLMs的深层中，视觉令牌并不是必需的。因此，我们在某个层面上战略性地撤回它们，只允许文本令牌参与后续层次的处理。为了确定视觉令牌撤回的理想层，我们最初分析了一组有限的小型数据集，并选择满足Kullback-Leibler散度准则的第一层。我们的VTW方法可以在维持性能的情况下，将计算开销降低超过40％，适用于各种多模态任务。我们的代码已在https://github.com/lzhxmu/VTW上发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在通过提出Visual Tokens Withdrawal（VTW）模块来加速多模态大型语言模型（MLLMs）的推理过程。该模块的目的是减少MLLMs中视觉信息表示所需的额外输入标记，并降低计算负担。
关键思路

VTW模块的关键思路是在MLLMs的某一层中撤回视觉令牌，只允许文本令牌参与后续层的计算。该模块的设计基于两个观察到的现象：关注沉淀现象和信息迁移现象。
其它亮点

论文使用有限的数据集分析了VTW模块的最佳层数，并发现在保持性能的同时，该模块可以将计算负担降低超过40％。研究还展示了VTW模块在不同多模态任务中的有效性，并提供了开源代码。
相关研究

最近的相关研究包括使用注意力机制来处理多模态数据的工作，以及使用深度学习技术来提高多模态模型的效率和性能的工作。相关论文包括“Attention-Based Models for Multimodal Learning: A Review”和“Efficient Multimodal Fusion with Modality Attention and Cross-Modal Interaction”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问