Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference

2024年05月09日
  • 简介
    多模态大语言模型(MLLMs)由于参数庞大和需要额外的输入令牌来表示视觉信息,因此需要大量计算来进行推理。在此,我们介绍了Visual Tokens Withdrawal (VTW),这是一个即插即用的模块,可加速MLLMs进行快速推理。我们的方法受到两个有趣现象的启发:(1)在LLMs中普遍存在的注意力下沉现象也存在于MLLMs中,表明初始令牌和最近的令牌获得了大部分的注意力,而深层的中间视觉令牌获得的注意力较少;(2)信息迁移的存在,这意味着视觉信息在MLLMs的前几层中被传递给后续的文本令牌。根据我们的发现,我们得出结论:在MLLMs的深层中,视觉令牌并不是必需的。因此,我们在某个层面上战略性地撤回它们,只允许文本令牌参与后续层次的处理。为了确定视觉令牌撤回的理想层,我们最初分析了一组有限的小型数据集,并选择满足Kullback-Leibler散度准则的第一层。我们的VTW方法可以在维持性能的情况下,将计算开销降低超过40%,适用于各种多模态任务。我们的代码已在https://github.com/lzhxmu/VTW上发布。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在通过提出Visual Tokens Withdrawal(VTW)模块来加速多模态大型语言模型(MLLMs)的推理过程。该模块的目的是减少MLLMs中视觉信息表示所需的额外输入标记,并降低计算负担。
  • 关键思路
    VTW模块的关键思路是在MLLMs的某一层中撤回视觉令牌,只允许文本令牌参与后续层的计算。该模块的设计基于两个观察到的现象:关注沉淀现象和信息迁移现象。
  • 其它亮点
    论文使用有限的数据集分析了VTW模块的最佳层数,并发现在保持性能的同时,该模块可以将计算负担降低超过40%。研究还展示了VTW模块在不同多模态任务中的有效性,并提供了开源代码。
  • 相关研究
    最近的相关研究包括使用注意力机制来处理多模态数据的工作,以及使用深度学习技术来提高多模态模型的效率和性能的工作。相关论文包括“Attention-Based Models for Multimodal Learning: A Review”和“Efficient Multimodal Fusion with Modality Attention and Cross-Modal Interaction”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问