Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption

简介

大型语言模型（LLMs）以2022年底发布的ChatGPT为代表，以其先进的语言理解能力，彻底改变了各个行业。然而，它们的效率受到Transformer架构处理长文本的挑战。KV-Cache已经成为解决这个问题的关键方案，将标记生成的时间复杂度从二次降为线性，但相应地增加了与对话长度成比例的GPU内存开销。随着LLM社区和学术界的发展，各种KV-Cache压缩方法已经被提出。在本文中，我们剖析了KV-Cache的各种属性，并详细阐述了目前用于优化LLMs KV-Cache空间使用的各种方法。这些方法涵盖了预训练阶段、部署阶段和推理阶段，我们总结了这些方法之间的共同点和差异。此外，我们列出了一些评估大型语言模型长文本能力的指标，从效率和能力的角度来看。因此，我们的综述揭示了LLM优化不断发展的格局，为这个充满活力的领域未来的进展提供了见解。

图表

解决问题

优化大型语言模型中KV-Cache的空间利用率

关键思路

通过压缩KV-Cache来减少大型语言模型中的GPU内存占用

其它亮点

使用不同的方法来压缩KV-Cache，包括pre-training、deployment和inference阶段的优化。实验使用了不同的数据集，展示了优化方法的有效性。

Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption

评论