- 简介键-值(KV)缓存已成为加速大型语言模型(LLMs)推理生成速度的事实标准。然而,随着序列长度的增加,不断增长的缓存需求已经将LLM推理转变为一个内存限制问题,显著地限制了系统吞吐量。现有方法依赖于丢弃不重要的标记或均匀量化所有条目。然而,这些方法经常会产生高近似误差来表示压缩矩阵。自回归解码过程进一步增加了每个步骤的误差,导致模型生成的重大偏差和性能恶化。为了解决这个挑战,我们提出了GEAR,一种高效的KV缓存压缩框架,实现了近乎无损的高比压缩。GEAR首先将大多数相似大小的条目量化为超低精度。然后,它使用低秩矩阵来近似量化误差,并使用稀疏矩阵来修复异常条目的单个误差。通过巧妙地整合三种技术,GEAR能够充分利用它们的协同潜力。我们的实验表明,与替代方法相比,GEAR实现了近乎无损的4位KV缓存压缩,吞吐量提高了最多2.38倍,同时将峰值内存大小减小了最多2.29倍。我们的代码可在https://github.com/HaoKang-Timmy/GEAR上公开获取。
- 图表
- 解决问题解决问题:如何提高大型语言模型推理的速度和内存效率?
- 关键思路关键思路:使用三种技术(量化、低秩矩阵、稀疏矩阵)相结合,提出了一种高比例压缩KV缓存的框架GEAR,实现了近乎无损的高比例压缩。
- 其它亮点其他亮点:GEAR框架实现了近乎无损4位KV缓存压缩,并取得了高达2.38倍的推理速度提升和2.29倍的内存峰值大小减少。作者提供了代码开源。
- 相关研究:目前已有的方法通常会损失较多信息,而GEAR框架实现了近乎无损的高比例压缩,相比其他方法有较大优势。
沙发等你来抢
去评论
评论
沙发等你来抢