QAQ: Quality Adaptive Quantization for LLM KV Cache

2024年03月07日
  • 简介
    LLMs的出现在NLP应用中引发了一股新的突破,特别是在问题回答系统和文本生成等领域。随着对更长上下文的需求增长,由于Key-Value(KV)缓存随着上下文长度的线性扩展,模型部署出现了显著的瓶颈。现有方法主要依赖于各种假设,例如基于注意力分数对KV缓存进行排序以进行替换或驱逐,以压缩KV缓存并提高模型吞吐量。然而,这些策略使用的启发式方法可能会错误地驱逐关键的KV缓存,这可能会严重降低模型性能。在本文中,我们提出了QAQ,一种适用于KV缓存的质量自适应量化方案。我们在理论上证明了关键缓存和值缓存对量化的敏感性不同,从而导致了它们的非均匀量化的分别量化策略的制定。通过集成专用的异常值处理以及改进的注意力感知方法,QAQ实现了KV缓存大小高达10倍的压缩比,对模型性能影响可忽略不计。QAQ显著降低了部署LLMs的实际障碍,为更长上下文应用开辟了新的可能性。代码可在github.com/ClubieDong/KVCacheQuantization上获得。
  • 图表
  • 解决问题
    解决问题的主要目标是提高LLMs在长文本处理中的性能。现有的方法在处理长文本时,由于Key-Value(KV)缓存的线性扩展,存在模型部署的瓶颈。
  • 关键思路
    论文提出了QAQ,一种质量自适应量化方案,用于KV缓存。该方案通过分别对键缓存和值缓存进行非均匀量化,以理论上证明键缓存和值缓存对量化具有不同的敏感性。QAQ通过集成专用的异常值处理和改进的注意力感知方法,实现了KV缓存大小高达10倍的压缩比,对模型性能影响微乎其微。
  • 其它亮点
    论文的亮点包括:提出了QAQ方案,实现了高压缩比的KV缓存;通过实验验证了QAQ方案的有效性;开源了代码,提供了github链接。
  • 相关研究
    最近的相关研究包括:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论