Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption

简介

大型语言模型（LLMs）以2022年底发布的ChatGPT为代表，凭借其先进的语言理解能力，已经彻底改变了各个行业。然而，它们的效率受到了Transformer架构处理长文本的困难的挑战。KV-Cache已经成为解决这个问题的关键方案，将标记生成的时间复杂度从二次转换为线性，但随着对话长度的增加，会增加与GPU内存开销成比例的开销。随着LLM社区和学术界的发展，已经提出了各种KV-Cache压缩方法。在本文中，我们分析了KV-Cache的各种属性，并详细阐述了目前用于优化LLMs的KV-Cache空间使用的各种方法。这些方法涵盖了预训练阶段、部署阶段和推理阶段，并总结了这些方法之间的共同点和差异。此外，我们列出了一些评估大型语言模型长文本能力的指标，从效率和能力的角度。因此，我们的综述揭示了LLM优化不断发展的景观，为这个充满活力的领域未来的进展提供了深入的见解。
图表
解决问题

优化大型语言模型中KV-Cache的空间使用问题
关键思路

使用各种方法优化KV-Cache的空间使用，包括预训练阶段、部署阶段和推理阶段，以提高大型语言模型处理长文本的能力
其它亮点

论文介绍了各种优化KV-Cache空间使用的方法，并列举了评估大型语言模型长文本处理能力的指标，同时提供了一些值得关注的实验结果和开源代码
相关研究

最近的相关研究包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》和《Scaling Laws for Neural Language Models》等

Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption

评论