QAQ: Quality Adaptive Quantization for LLM KV Cache

简介

LLMs的出现在NLP应用中引发了一股新的突破，特别是在问题回答系统和文本生成等领域。随着对更长上下文的需求增长，由于Key-Value（KV）缓存随着上下文长度的线性扩展，模型部署出现了显著的瓶颈。现有方法主要依赖于各种假设，例如基于注意力分数对KV缓存进行排序以进行替换或驱逐，以压缩KV缓存并提高模型吞吐量。然而，这些策略使用的启发式方法可能会错误地驱逐关键的KV缓存，这可能会严重降低模型性能。在本文中，我们提出了QAQ，一种适用于KV缓存的质量自适应量化方案。我们在理论上证明了关键缓存和值缓存对量化的敏感性不同，从而导致了它们的非均匀量化的分别量化策略的制定。通过集成专用的异常值处理以及改进的注意力感知方法，QAQ实现了KV缓存大小高达10倍的压缩比，对模型性能影响可忽略不计。QAQ显著降低了部署LLMs的实际障碍，为更长上下文应用开辟了新的可能性。代码可在github.com/ClubieDong/KVCacheQuantization上获得。
图表
解决问题

解决问题的主要目标是提高LLMs在长文本处理中的性能。现有的方法在处理长文本时，由于Key-Value（KV）缓存的线性扩展，存在模型部署的瓶颈。
关键思路

论文提出了QAQ，一种质量自适应量化方案，用于KV缓存。该方案通过分别对键缓存和值缓存进行非均匀量化，以理论上证明键缓存和值缓存对量化具有不同的敏感性。QAQ通过集成专用的异常值处理和改进的注意力感知方法，实现了KV缓存大小高达10倍的压缩比，对模型性能影响微乎其微。
其它亮点

论文的亮点包括：提出了QAQ方案，实现了高压缩比的KV缓存；通过实验验证了QAQ方案的有效性；开源了代码，提供了github链接。
相关研究

最近的相关研究包括：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。

QAQ: Quality Adaptive Quantization for LLM KV Cache

评论