PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling

2024年06月04日
  • 简介
    本研究探讨了大型语言模型(LLMs)内部是否存在基于注意力的信息流,以便进行长上下文处理时聚合信息。我们的观察结果表明,LLMs通过金字塔式信息漏斗聚合信息,其中注意力在较低层级中广泛分散,逐渐在特定上下文中巩固,并最终集中于关键标记(即大规模激活或注意力汇)在较高层级中。受这些见解的启发,我们开发了PyramidKV,这是一种新颖而有效的KV缓存压缩方法。该方法在不同层级动态调整KV缓存大小,为较低层级分配更多的缓存空间,为较高层级分配较少的缓存空间,与维护统一KV缓存大小的传统方法不同。我们的实验评估利用LongBench基准测试显示,PyramidKV在保留仅12%的KV缓存的情况下,与具有完整KV缓存的模型性能相当,从而显着减少了内存使用。在强调内存效率的场景中,仅维护0.7%的KV缓存的情况下,PyramidKV超过其他KV缓存压缩技术,在TREC上实现了高达20.5绝对准确度的提高。
  • 作者讲解·1
  • 图表
  • 解决问题
    本文旨在研究大型语言模型(LLMs)内部的基于注意力的信息流是否通过可察觉的模式进行长上下文处理的聚合。该研究是否解决了一个新问题?
  • 关键思路
    本文提出了金字塔信息漏斗的概念,即注意力在较低层中广泛分散,逐渐在特定上下文中巩固,并最终集中在较高层的关键令牌(即大量激活或注意力汇)上。基于这些见解,本文开发了PyramidKV,一种新颖而有效的KV缓存压缩方法。该方法动态调整不同层之间的KV缓存大小,将更多的缓存分配给较低层,较少分配给较高层,与传统方法保持统一的KV缓存大小不同。相比当前领域的研究状况,本文的思路有什么新意?
  • 其它亮点
    本文的亮点包括开发了一种新颖而有效的KV缓存压缩方法PyramidKV,实验评估使用了LongBench基准测试,展示了PyramidKV在保留仅12%的KV缓存的情况下与具有完整KV缓存的模型的性能相匹配,从而显着减少了内存使用。在强调内存效率的情况下,仅保留0.7%的KV缓存时,PyramidKV超越其他KV缓存压缩技术,在TREC上实现了高达20.5的绝对精度提升。
  • 相关研究
    在这个领域中,最近的相关研究包括《Compressive Transformers for Long-Range Sequence Modelling》、《Reformer: The Efficient Transformer》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问