LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models

2024年03月22日
  • 简介
    大型多模态模型(LMMs)通过连接视觉编码器和大型语言模型展现了重要的推理能力。LMMs通常使用固定数量的视觉令牌,例如在CLIP视觉编码器中的倒数第二层特征作为前缀内容。最近的LMMs包含更复杂的视觉输入,例如高分辨率图像和视频,这显著增加了视觉令牌的数量。然而,由于Transformer架构的设计,这些模型的计算成本往往随着输入令牌数量的增加呈二次增长。为了解决这个问题,我们探索了一种令牌减少机制,并发现与之前的工作类似,许多视觉令牌在空间上存在冗余。基于此,我们提出了PruMerge,一种新颖的自适应视觉令牌减少方法,它在保持相当的模型性能的同时大大减少了视觉令牌的数量。我们首先基于它们与类令牌和空间令牌的相似性选择未剪枝的视觉令牌。然后,我们基于关键相似性对剪枝后的令牌进行聚类,并将聚类后的令牌与未剪枝的令牌合并以补充它们的信息。实验证明,当应用于LLaVA-1.5时,我们的方法可以平均压缩视觉令牌18倍,并在各种视觉问答和推理任务中实现相当的性能。代码和检查点位于https://llava-prumerge.github.io/。
  • 图表
  • 解决问题
    论文旨在解决大型多模态模型(LMMs)中输入视觉令牌数量增加导致的计算成本问题,提出了一种自适应的视觉令牌减少方法。
  • 关键思路
    论文提出了 PruMerge 方法,首先基于类令牌和空间令牌的相似性选择未修剪的视觉令牌,然后根据关键相似性对修剪的令牌进行聚类,并将聚类后的令牌与未修剪的令牌合并以补充其信息。
  • 其它亮点
    实验结果表明,PruMerge 可以将视觉令牌的数量平均压缩18倍,同时在多样化的视觉问答和推理任务中实现了可比较的性能。论文提供了代码和检查点。
  • 相关研究
    在最近的相关研究中,也有一些关于减少视觉令牌数量的工作,如 CLIP 和 DeCLUTR。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论