A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression

简介

大型语言模型（LLMs）的部署通常会受到键-值（KV）缓存的广泛内存需求的阻碍，特别是随着上下文长度的增加。现有的减小KV缓存大小的方法要么涉及微调模型以学习压缩策略，要么利用注意力分数减少序列长度。我们分析了仅有解码器的基于Transformer的模型中的注意力分布，并观察到大多数层中的注意力分配模式保持一致。令人惊讶的是，我们发现缓存的KV对的$L_2$和注意力分数之间存在明显的相关性，其中键嵌入的低$L_2$通常会导致解码期间的高注意力分数。这一发现表明，KV对的影响可能在查询之前由键嵌入本身确定。基于这一观察，我们基于键嵌入的$L_2$压缩KV缓存。我们的实验结果表明，这种简单策略可以在语言建模和针对性搜索任务中将KV缓存大小减小50％，并且在密码检索任务中可以减小90％而不会失去准确性。
图表
解决问题

论文旨在解决大型语言模型中Key-Value（KV）缓存所需的内存空间过大的问题，提出了一种基于$L_2$距离压缩KV缓存的方法。
关键思路

通过分析解码器-仅Transformer模型中的注意力分布，发现大多数层的注意力分配模式保持一致。研究发现，缓存的KV对的$L_2$和注意力得分之间存在明显的相关性，低$L_2$的键嵌入通常会导致在解码期间高的注意力得分。基于这一观察结果，提出了一种基于键嵌入$L_2$距离的KV缓存压缩策略。
其它亮点

实验结果表明，这种简单的策略可以在语言建模和寻找特定字符串等任务中将KV缓存大小减少50％，在密码检索任务中减少90％，同时不会损失准确性。
相关研究

在相关研究方面，目前已有一些关于减少KV缓存大小的研究，其中一些是基于模型微调学习压缩策略，另一些则是利用注意力得分减少序列长度。

A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression

评论