- 简介LLMs的出现在NLP应用中引发了一股新的突破,特别是在问题回答系统和文本生成等领域。随着对更长上下文的需求增长,由于Key-Value(KV)缓存随着上下文长度的线性扩展,模型部署出现了显著的瓶颈。现有方法主要依赖于各种假设,例如基于注意力分数对KV缓存进行排序以进行替换或驱逐,以压缩KV缓存并提高模型吞吐量。然而,这些策略使用的启发式方法可能会错误地驱逐关键的KV缓存,这可能会严重降低模型性能。在本文中,我们提出了QAQ,一种适用于KV缓存的质量自适应量化方案。我们在理论上证明了关键缓存和值缓存对量化的敏感性不同,从而导致了它们的非均匀量化的分别量化策略的制定。通过集成专用的异常值处理以及改进的注意力感知方法,QAQ实现了KV缓存大小高达10倍的压缩比,对模型性能影响可忽略不计。QAQ显著降低了部署LLMs的实际障碍,为更长上下文应用开辟了新的可能性。代码可在github.com/ClubieDong/KVCacheQuantization上获得。
- 图表
- 解决问题解决问题的主要目标是提高LLMs在长文本处理中的性能。现有的方法在处理长文本时,由于Key-Value(KV)缓存的线性扩展,存在模型部署的瓶颈。
- 关键思路论文提出了QAQ,一种质量自适应量化方案,用于KV缓存。该方案通过分别对键缓存和值缓存进行非均匀量化,以理论上证明键缓存和值缓存对量化具有不同的敏感性。QAQ通过集成专用的异常值处理和改进的注意力感知方法,实现了KV缓存大小高达10倍的压缩比,对模型性能影响微乎其微。
- 其它亮点论文的亮点包括:提出了QAQ方案,实现了高压缩比的KV缓存;通过实验验证了QAQ方案的有效性;开源了代码,提供了github链接。
- 最近的相关研究包括:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。
沙发等你来抢
去评论
评论
沙发等你来抢