SKVQ: Sliding-window Key and Value Cache Quantization for Large Language Models

向作者提问

NEW

简介

大型语言模型（LLMs）现在能够处理更长的令牌序列，实现复杂的任务，如理解图书和生成长篇小说。然而，LLMs所需的键值（KV）缓存随着上下文长度的增加消耗大量内存，成为部署的瓶颈。在本文中，我们提出了一种称为SKVQ的策略，即滑动窗口KV缓存量化，以解决极低比特宽度KV缓存量化的问题。为了实现这一点，SKVQ重新排列KV缓存的通道，以改善量化组中通道的相似性，并在组级别应用剪辑动态量化。此外，SKVQ确保KV缓存中最近的窗口令牌以高精度保留，有助于保持KV缓存的小但重要部分的准确性。SKVQ在保持准确性的同时实现了高压缩比。我们在LLMs上的评估表明，SKVQ超越了以前的量化方法，允许将KV缓存量化为2位键和1.5位值，几乎没有损失准确性。使用SKVQ，可以在80GB内存GPU上处理长达1M的上下文长度，对于7b模型，解码速度提高了7倍。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决大型语言模型中键值（KV）缓存占用大量内存的问题，该问题随着上下文长度的增加而成为部署的瓶颈。
关键思路

论文提出了一种名为SKVQ的策略，即滑动窗口KV缓存量化，通过重新排列KV缓存的通道，提高量化组中通道的相似性，并在组级别应用剪裁动态量化。此外，SKVQ确保保留KV缓存中最近的窗口标记，并实现高精度。SKVQ实现了高压缩比，同时保持准确性。
其它亮点

论文的实验结果表明，SKVQ超越了以前的量化方法，允许将KV缓存量化为2位键和1.5位值，几乎没有精度损失。使用SKVQ，可以在80GB内存GPU上处理长达1M的上下文长度，对于7b模型，解码速度提高了7倍。
相关研究

在这个领域中，最近的相关研究包括：《Deep Learning for Chatbot (Seq2Seq)》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《GPT-2: Language Models are Unsupervised Multitask Learners》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问