GEAR: An Efficient KV Cache Compression Recipefor Near-Lossless Generative Inference of LLM

简介

键值（KV）缓存已成为加速大型语言模型（LLMs）推理生成速度的事实标准。然而，随着序列长度的增加，不断增长的缓存需求已经将LLM推理转变为一个内存限制问题，极大地限制了系统吞吐量。现有方法依赖于删除不重要的标记或均匀量化所有条目。然而，这些方法通常会产生高近似误差来表示压缩矩阵。自回归解码过程进一步增加了每个步骤的误差，导致模型生成的严重偏差和性能恶化。为了解决这一挑战，我们提出了GEAR，一种高效的KV缓存压缩框架，实现了接近无损高比压缩。GEAR首先对大多数具有相似数量级的条目进行量化到超低精度。然后，它使用低秩矩阵来近似量化误差，并使用稀疏矩阵来修复来自异常条目的单个错误。通过巧妙地整合三种技术，GEAR能够充分利用它们的协同潜力。我们的实验表明，与替代方案相比，GEAR实现了近乎无损的4位KV缓存压缩，吞吐量提高了2.38倍，同时将峰值内存大小减少了2.29倍。我们的代码可在https://github.com/HaoKang-Timmy/GEAR上公开获取。
图表
解决问题

提高大型语言模型推理的速度和内存使用效率
关键思路

提出了一种高效的键值缓存压缩框架，通过量化、低秩矩阵和稀疏矩阵来实现近乎无损的高比压缩，以解决缓存需求随着序列长度增加而导致的内存受限问题。
其它亮点

提出的GEAR框架能够实现近乎无损的4位键值缓存压缩，最大程度地利用三种技术的协同作用，实现了高达2.38倍的吞吐量提高和2.29倍的峰值内存大小减少。实验结果表明，GEAR相比其他方法具有更好的性能。
相关研究

相关研究包括利用量化和低秩矩阵来压缩神经网络模型的研究，如《Learning both Weights and Connections for Efficient Neural Networks》和《Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding》。

GEAR: An Efficient KV Cache Compression Recipefor Near-Lossless Generative Inference of LLM

评论