- 简介大型语言模型(LLMs)的部署通常会受到键-值(KV)缓存的广泛内存需求的阻碍,特别是随着上下文长度的增加。现有的减小KV缓存大小的方法要么涉及微调模型以学习压缩策略,要么利用注意力分数减少序列长度。我们分析了仅有解码器的基于Transformer的模型中的注意力分布,并观察到大多数层中的注意力分配模式保持一致。令人惊讶的是,我们发现缓存的KV对的$L_2$和注意力分数之间存在明显的相关性,其中键嵌入的低$L_2$通常会导致解码期间的高注意力分数。这一发现表明,KV对的影响可能在查询之前由键嵌入本身确定。基于这一观察,我们基于键嵌入的$L_2$压缩KV缓存。我们的实验结果表明,这种简单策略可以在语言建模和针对性搜索任务中将KV缓存大小减小50%,并且在密码检索任务中可以减小90%而不会失去准确性。
- 图表
- 解决问题论文旨在解决大型语言模型中Key-Value(KV)缓存所需的内存空间过大的问题,提出了一种基于$L_2$距离压缩KV缓存的方法。
- 关键思路通过分析解码器-仅Transformer模型中的注意力分布,发现大多数层的注意力分配模式保持一致。研究发现,缓存的KV对的$L_2$和注意力得分之间存在明显的相关性,低$L_2$的键嵌入通常会导致在解码期间高的注意力得分。基于这一观察结果,提出了一种基于键嵌入$L_2$距离的KV缓存压缩策略。
- 其它亮点实验结果表明,这种简单的策略可以在语言建模和寻找特定字符串等任务中将KV缓存大小减少50%,在密码检索任务中减少90%,同时不会损失准确性。
- 在相关研究方面,目前已有一些关于减少KV缓存大小的研究,其中一些是基于模型微调学习压缩策略,另一些则是利用注意力得分减少序列长度。
沙发等你来抢
去评论
评论
沙发等你来抢