MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer

简介

最近，视觉语言变换器（VLTs）取得了巨大的成功，但同时伴随着巨大的计算成本，其中一个主要原因可以归因于大量的视觉和语言令牌。现有的用于压缩VLTs的令牌修剪研究主要遵循单模态的方案，但忽略了对齐不同模态以指导令牌修剪过程的关键作用，导致一个模态的重要令牌在另一个模态分支中被错误地修剪。同时，现有的VLT修剪工作也缺乏根据不同输入样本动态压缩每个层的灵活性。为此，我们提出了一种名为多模态对齐引导动态令牌修剪（MADTP）的新框架，用于加速各种VLTs。具体而言，我们首先引入了一个精心设计的多模态对齐引导（MAG）模块，该模块可以对齐来自不同模态的相同语义概念的特征，以确保修剪的令牌对于所有模态都不太重要。我们进一步设计了一种新颖的动态令牌修剪（DTP）模块，它可以根据不同的输入实例自适应地调整每个层的令牌压缩比。各种基准测试的大量实验表明，MADTP显着降低了各种多模态模型的计算复杂度，同时保持了竞争性能。值得注意的是，当应用于NLVR2数据集中的BLIP模型时，MADTP可以将GFLOPs降低80％，而性能下降不到4％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决Vision-Language Transformers（VLTs）的高计算成本问题，提出一种新的框架Multimodal Alignment-Guided Dynamic Token Pruning（MADTP）来加速各种VLTs。
关键思路

MADTP框架包括Multi-modality Alignment Guidance（MAG）模块和Dynamic Token Pruning（DTP）模块。MAG模块可以对齐不同模态的语义概念特征，确保修剪的令牌对所有模态都不太重要。DTP模块可以根据不同的输入实例自适应地调整每层的令牌压缩比。
其它亮点

本论文的实验结果表明，MADTP可以显著减少各种多模型的计算复杂度，同时保持竞争性能。当应用于NLVR2数据集中的BLIP模型时，MADTP可以将GFLOPs降低80％，性能降低不到4％。
相关研究

与此相关的研究包括单模态令牌修剪和多模态模型压缩。

MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer

提问交流

提问交流