LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models

向作者提问

NEW

简介

大型多模态模型（LMMs）通过连接视觉编码器和大型语言模型已经展示出了显著的推理能力。LMMs通常使用固定数量的视觉令牌，例如在CLIP视觉编码器中的倒数第二层特征，作为前缀内容。最近的LMMs包含了更复杂的视觉输入，例如高分辨率图像和视频，这增加了视觉令牌的数量。然而，由于Transformer架构的设计，与这些模型相关的计算成本往往会随着输入令牌数量的增加而呈二次增长。为了解决这个问题，我们探索了一种令牌减少机制，并发现与之前的工作类似，许多视觉令牌在空间上是冗余的。基于此，我们提出了PruMerge，一种新颖的自适应视觉令牌减少方法，可以大大减少视觉令牌的数量，同时保持可比较的模型性能。我们首先根据它们与类令牌和空间令牌的相似性选择未修剪的视觉令牌。然后，我们根据关键相似性对修剪后的令牌进行聚类，并将聚类后的令牌与未修剪的令牌合并，以补充它们的信息。经验证明，当应用于LLaVA-1.5时，我们的方法可以平均压缩视觉令牌18倍，并在各种视觉问答和推理任务中实现可比较的性能。代码和检查点位于https://llava-prumerge.github.io/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决Large Multimodal Models（LMMs）中大量视觉输入所导致的计算成本问题，提出一种新的自适应视觉令牌减少方法。
关键思路

论文提出了一种名为PruMerge的自适应视觉令牌减少方法，通过选择与类令牌和空间令牌相似的未剪枝视觉令牌，以及将相似的剪枝令牌聚类和合并到未剪枝令牌中来减少视觉令牌数量，从而降低LMMs的计算成本。
其它亮点

论文在实验中使用了LLaVA-1.5数据集，并展示了PruMerge方法可以将视觉令牌平均压缩18倍，同时在各种视觉问答和推理任务中保持可比较的模型性能。此外，论文提供了代码和检查点。
相关研究

在最近的相关研究中，还有一些使用减少视觉令牌的方法来降低计算成本的工作，例如《Reducing Transformer Depth on Demand with Structured Dropout》和《Token-level Dynamic Pooling in Transformers for Multimodal Named Entity Recognition》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问