CATP: Cross-Attention Token Pruning for Accuracy Preserved Multimodal Model Inference

2024年04月02日
  • 简介
    为了响应对大型多模态模型越来越高的兴趣,我们介绍了一种精度为重点的令牌修剪方法——交叉注意力令牌修剪(CATP)。我们的方法利用多模态模型中的交叉注意力层,例如BLIP-2,来提取用于令牌重要性确定的有价值信息。CATP采用了模型头和层之间的精细投票策略。在评估中,CATP相比现有的令牌修剪方法实现了高达12.1倍的更高准确性,解决了计算效率和模型精度之间的权衡问题。
  • 图表
  • 解决问题
    CATP试图解决的问题是在大型多模型模型中进行精确的令牌修剪,以解决计算效率和模型精度之间的权衡。
  • 关键思路
    CATP利用多模型模型中的交叉注意力层来提取有价值的信息,以确定令牌的重要性,并采用跨模型头和层的精细投票策略。
  • 其它亮点
    CATP在评估中比现有的令牌修剪方法获得高达12.1倍的准确性,实验设计合理,使用了多个数据集,作者还提供了开源代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Token-level Pruning for Efficient Transformers》和《Structured Pruning of Large Language Models》。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论