GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM

简介

键-值（KV）缓存已成为加速大型语言模型（LLMs）推理生成速度的事实标准。然而，随着序列长度的增加，不断增长的缓存需求已经将LLM推理转变为一个内存限制问题，显著地限制了系统吞吐量。现有方法依赖于丢弃不重要的标记或均匀量化所有条目。然而，这些方法经常会产生高近似误差来表示压缩矩阵。自回归解码过程进一步增加了每个步骤的误差，导致模型生成的重大偏差和性能恶化。为了解决这个挑战，我们提出了GEAR，一种高效的KV缓存压缩框架，实现了近乎无损的高比压缩。GEAR首先将大多数相似大小的条目量化为超低精度。然后，它使用低秩矩阵来近似量化误差，并使用稀疏矩阵来修复异常条目的单个误差。通过巧妙地整合三种技术，GEAR能够充分利用它们的协同潜力。我们的实验表明，与替代方法相比，GEAR实现了近乎无损的4位KV缓存压缩，吞吐量提高了最多2.38倍，同时将峰值内存大小减小了最多2.29倍。我们的代码可在https://github.com/HaoKang-Timmy/GEAR上公开获取。
图表
解决问题

解决问题：如何提高大型语言模型推理的速度和内存效率？
关键思路

关键思路：使用三种技术（量化、低秩矩阵、稀疏矩阵）相结合，提出了一种高比例压缩KV缓存的框架GEAR，实现了近乎无损的高比例压缩。
其它亮点

其他亮点：GEAR框架实现了近乎无损4位KV缓存压缩，并取得了高达2.38倍的推理速度提升和2.29倍的内存峰值大小减少。作者提供了代码开源。
相关研究

相关研究：目前已有的方法通常会损失较多信息，而GEAR框架实现了近乎无损的高比例压缩，相比其他方法有较大优势。

GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM

评论