Layer-Condensed KV Cache for Efficient Inference of Large Language Models

2024年05月17日
  • 简介
    巨大的内存消耗一直是在实际应用中部署高吞吐量大语言模型的主要瓶颈。除了参数数量庞大外,变压器架构中注意力机制的键值(KV)缓存也消耗了大量内存,特别是对于深度语言模型,当层数较多时,消耗更大。在本文中,我们提出了一种新颖的方法,仅计算和缓存少量层的KVs,从而显著节省内存消耗并提高推理吞吐量。我们对大型语言模型进行的实验表明,我们的方法比标准变压器高出多达26倍的吞吐量,并在语言建模和下游任务中具有竞争力的性能。此外,我们的方法与现有的变压器节省内存技术正交,因此可以直接将它们与我们的模型集成,从而进一步提高推理效率。我们的代码可在https://github.com/whyNLP/LCKV上获得。
  • 图表
  • 解决问题
    如何解决大型语言模型中存储消耗巨大的问题?
  • 关键思路
    提出一种只计算和缓存少数层的KVs的新方法,从而显著节省内存消耗,提高推理吞吐量。
  • 其它亮点
    实验显示,该方法比标准transformer具有高达26倍的吞吐量,并在语言建模和下游任务中具有竞争力。该方法与现有transformer的内存节省技术相互独立,易于集成,从而进一步提高推理效率。代码开源。
  • 相关研究
    与transformer相关的其他内存节省技术,如Reformer、Linformer等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论