Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression

向作者提问

NEW

简介

键值（KV）缓存是加速大型语言模型（LLMs）推理的重要技术，但会产生显著的内存开销。为了压缩KV缓存的大小，现有方法通常会牺牲精度或需要额外的校准数据，限制了它们在LLM部署中的实用性。在本文中，我们介绍了一种新颖的无数据低位量化技术DecoQuant，它基于张量分解方法，可以有效地压缩KV缓存。我们的核心思想是通过进行张量分解来调整原始矩阵的异常值分布，从而将量化难度从矩阵迁移到分解的局部张量上。特别地，我们发现异常值主要集中在小的局部张量上，而大张量往往具有更窄的值范围。基于这一发现，我们建议对大张量应用低位量化，同时保持小张量的高精度表示。此外，我们利用所提出的量化方法来压缩LLMs的KV缓存，以加速推理，并开发了专门针对DecoQuant的高效反量化内核。通过广泛的实验，DecoQuant展示了显着的效率提升，展示了高达约75％的内存占用减少，同时保持可比较的生成质量。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决大型语言模型中键值缓存的内存占用问题，现有的压缩方法要么牺牲精度，要么需要额外的校准数据，限制了它们在实际应用中的可行性。
关键思路

DecoQuant是一种新颖的无需数据的低位量化技术，基于张量分解方法，可以有效地压缩键值缓存。其核心思想是通过执行张量分解来调整原始矩阵的异常值分布，从而将量化难度从矩阵迁移到分解的本地张量上。
其它亮点

本文发现异常值主要集中在小的本地张量上，而大的张量往往具有更窄的值范围。因此，作者建议对大张量应用低位量化，同时保持小张量的高精度表示。作者还利用提出的量化方法来压缩LLMs的KV缓存，加速推断，并针对DecoQuant开发了一种高效的反量化内核。实验结果表明，DecoQuant在保持可比生成质量的同时，内存占用减少了约75％。
相关研究

在这个领域中，最近的相关研究包括：1）《Compressing BERT: Studying the Effects of Weight Pruning on Transfer Learning》；2）《Efficient Transformers: A Survey of Attention Models》；3）《Learning to Prune Filters in Convolutional Neural Networks》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问