Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression

2024年05月21日
  • 简介
    键值(KV)缓存是加速大型语言模型(LLMs)推理的重要技术,但会产生显著的内存开销。为了压缩KV缓存的大小,现有方法通常会牺牲精度或需要额外的校准数据,限制了它们在LLM部署中的实用性。在本文中,我们介绍了一种新颖的无数据低位量化技术DecoQuant,它基于张量分解方法,可以有效地压缩KV缓存。我们的核心思想是通过进行张量分解来调整原始矩阵的异常值分布,从而将量化难度从矩阵迁移到分解的局部张量上。特别地,我们发现异常值主要集中在小的局部张量上,而大张量往往具有更窄的值范围。基于这一发现,我们建议对大张量应用低位量化,同时保持小张量的高精度表示。此外,我们利用所提出的量化方法来压缩LLMs的KV缓存,以加速推理,并开发了专门针对DecoQuant的高效反量化内核。通过广泛的实验,DecoQuant展示了显着的效率提升,展示了高达约75%的内存占用减少,同时保持可比较的生成质量。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决大型语言模型中键值缓存的内存占用问题,现有的压缩方法要么牺牲精度,要么需要额外的校准数据,限制了它们在实际应用中的可行性。
  • 关键思路
    DecoQuant是一种新颖的无需数据的低位量化技术,基于张量分解方法,可以有效地压缩键值缓存。其核心思想是通过执行张量分解来调整原始矩阵的异常值分布,从而将量化难度从矩阵迁移到分解的本地张量上。
  • 其它亮点
    本文发现异常值主要集中在小的本地张量上,而大的张量往往具有更窄的值范围。因此,作者建议对大张量应用低位量化,同时保持小张量的高精度表示。作者还利用提出的量化方法来压缩LLMs的KV缓存,加速推断,并针对DecoQuant开发了一种高效的反量化内核。实验结果表明,DecoQuant在保持可比生成质量的同时,内存占用减少了约75%。
  • 相关研究
    在这个领域中,最近的相关研究包括:1)《Compressing BERT: Studying the Effects of Weight Pruning on Transfer Learning》;2)《Efficient Transformers: A Survey of Attention Models》;3)《Learning to Prune Filters in Convolutional Neural Networks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问