- 简介最近,视觉语言变换器(VLTs)取得了巨大的成功,但同时伴随着巨大的计算成本,其中一个主要原因可以归因于大量的视觉和语言令牌。现有的用于压缩VLTs的令牌修剪研究主要遵循单模态的方案,但忽略了对齐不同模态以指导令牌修剪过程的关键作用,导致一个模态的重要令牌在另一个模态分支中被错误地修剪。同时,现有的VLT修剪工作也缺乏根据不同输入样本动态压缩每个层的灵活性。为此,我们提出了一种名为多模态对齐引导动态令牌修剪(MADTP)的新框架,用于加速各种VLTs。具体而言,我们首先引入了一个精心设计的多模态对齐引导(MAG)模块,该模块可以对齐来自不同模态的相同语义概念的特征,以确保修剪的令牌对于所有模态都不太重要。我们进一步设计了一种新颖的动态令牌修剪(DTP)模块,它可以根据不同的输入实例自适应地调整每个层的令牌压缩比。各种基准测试的大量实验表明,MADTP显着降低了各种多模态模型的计算复杂度,同时保持了竞争性能。值得注意的是,当应用于NLVR2数据集中的BLIP模型时,MADTP可以将GFLOPs降低80%,而性能下降不到4%。
-
- 图表
- 解决问题本论文旨在解决Vision-Language Transformers(VLTs)的高计算成本问题,提出一种新的框架Multimodal Alignment-Guided Dynamic Token Pruning(MADTP)来加速各种VLTs。
- 关键思路MADTP框架包括Multi-modality Alignment Guidance(MAG)模块和Dynamic Token Pruning(DTP)模块。MAG模块可以对齐不同模态的语义概念特征,确保修剪的令牌对所有模态都不太重要。DTP模块可以根据不同的输入实例自适应地调整每层的令牌压缩比。
- 其它亮点本论文的实验结果表明,MADTP可以显著减少各种多模型的计算复杂度,同时保持竞争性能。当应用于NLVR2数据集中的BLIP模型时,MADTP可以将GFLOPs降低80%,性能降低不到4%。
- 与此相关的研究包括单模态令牌修剪和多模态模型压缩。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流