- 简介大型语言模型(LLMs)现在能够处理更长的令牌序列,实现复杂的任务,如理解图书和生成长篇小说。然而,LLMs所需的键值(KV)缓存随着上下文长度的增加消耗大量内存,成为部署的瓶颈。在本文中,我们提出了一种称为SKVQ的策略,即滑动窗口KV缓存量化,以解决极低比特宽度KV缓存量化的问题。为了实现这一点,SKVQ重新排列KV缓存的通道,以改善量化组中通道的相似性,并在组级别应用剪辑动态量化。此外,SKVQ确保KV缓存中最近的窗口令牌以高精度保留,有助于保持KV缓存的小但重要部分的准确性。SKVQ在保持准确性的同时实现了高压缩比。我们在LLMs上的评估表明,SKVQ超越了以前的量化方法,允许将KV缓存量化为2位键和1.5位值,几乎没有损失准确性。使用SKVQ,可以在80GB内存GPU上处理长达1M的上下文长度,对于7b模型,解码速度提高了7倍。
-
- 图表
- 解决问题本论文旨在解决大型语言模型中键值(KV)缓存占用大量内存的问题,该问题随着上下文长度的增加而成为部署的瓶颈。
- 关键思路论文提出了一种名为SKVQ的策略,即滑动窗口KV缓存量化,通过重新排列KV缓存的通道,提高量化组中通道的相似性,并在组级别应用剪裁动态量化。此外,SKVQ确保保留KV缓存中最近的窗口标记,并实现高精度。SKVQ实现了高压缩比,同时保持准确性。
- 其它亮点论文的实验结果表明,SKVQ超越了以前的量化方法,允许将KV缓存量化为2位键和1.5位值,几乎没有精度损失。使用SKVQ,可以在80GB内存GPU上处理长达1M的上下文长度,对于7b模型,解码速度提高了7倍。
- 在这个领域中,最近的相关研究包括:《Deep Learning for Chatbot (Seq2Seq)》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《GPT-2: Language Models are Unsupervised Multitask Learners》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流