- 简介长上下文多模态大语言模型(MLLMs)需要大量的计算资源进行推断,因为它们的多模态Key-Value(KV)缓存的增长,针对不断增长的输入长度,挑战了内存和时间效率。与仅管理文本上下文的单模态LLMs不同,长上下文MLLMs的KV缓存包括来自具有时间和空间关系的多个图像以及相关文本上下文的表示。图像令牌的优势意味着传统的LLMs KV缓存优化不适用于多模态长上下文设置,并且没有先前的工作解决了这个挑战。在这项工作中,我们介绍了LOOK-M,一种先驱的、无需微调的方法,可以在保持与完整缓存可比性能的同时有效地减少多模态KV缓存大小。我们观察到,在提示预填期间,模型优先考虑更多的文本关注而不是图像特征,并基于多模态交互观察,探索了一种新的文本优先方法来压缩KV缓存。此外,为了减轻图像上下文信息的降级,我们提出了几种使用KV对合并的补偿策略。LOOK-M证明,通过显著减少KV缓存内存使用,例如在某些情况下将其减少80%,它不仅可以实现高达1.5倍的更快解码,而且在各种长上下文多模态任务中仍然保持或甚至提高性能。
- 图表
- 解决问题本论文旨在解决长文本多模态大语言模型(MLLMs)推理中的计算资源问题,即多模态KV缓存的增长挑战了内存和时间效率。
- 关键思路本文提出了一种名为LOOK-M的新方法,它可以在不进行微调的情况下有效地减少多模态KV缓存的大小,同时保持与完整缓存相当的性能。
- 其它亮点本文观察到,在提示预填充期间,模型优先考虑更多的文本关注而非图像特征,并提出了一种新的文本优先方法来压缩KV缓存。此外,为了减轻图像上下文信息的退化,本文提出了几种KV对合并的补偿策略。通过LOOK-M,可以在一定程度上减少KV缓存的内存使用,例如在某些情况下将其减少80%,不仅可以实现高达1.5倍的更快解码速度,而且还可以在各种长文本多模态任务中保持或甚至提高性能。
- 与本文相关的研究包括:《Attention is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
沙发等你来抢
去评论
评论
沙发等你来抢