- 简介键值(KV)缓存已成为加速大型语言模型(LLMs)推理生成速度的事实标准。然而,随着序列长度的增加,不断增长的缓存需求已经将LLM推理转变为一个内存限制问题,极大地限制了系统吞吐量。现有方法依赖于删除不重要的标记或均匀量化所有条目。然而,这些方法通常会产生高近似误差来表示压缩矩阵。自回归解码过程进一步增加了每个步骤的误差,导致模型生成的严重偏差和性能恶化。为了解决这一挑战,我们提出了GEAR,一种高效的KV缓存压缩框架,实现了接近无损高比压缩。GEAR首先对大多数具有相似数量级的条目进行量化到超低精度。然后,它使用低秩矩阵来近似量化误差,并使用稀疏矩阵来修复来自异常条目的单个错误。通过巧妙地整合三种技术,GEAR能够充分利用它们的协同潜力。我们的实验表明,与替代方案相比,GEAR实现了近乎无损的4位KV缓存压缩,吞吐量提高了2.38倍,同时将峰值内存大小减少了2.29倍。我们的代码可在https://github.com/HaoKang-Timmy/GEAR上公开获取。
- 图表
- 解决问题提高大型语言模型推理的速度和内存使用效率
- 关键思路提出了一种高效的键值缓存压缩框架,通过量化、低秩矩阵和稀疏矩阵来实现近乎无损的高比压缩,以解决缓存需求随着序列长度增加而导致的内存受限问题。
- 其它亮点提出的GEAR框架能够实现近乎无损的4位键值缓存压缩,最大程度地利用三种技术的协同作用,实现了高达2.38倍的吞吐量提高和2.29倍的峰值内存大小减少。实验结果表明,GEAR相比其他方法具有更好的性能。
- 相关研究包括利用量化和低秩矩阵来压缩神经网络模型的研究,如《Learning both Weights and Connections for Efficient Neural Networks》和《Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding》。
沙发等你来抢
去评论
评论
沙发等你来抢