- 简介在这项研究中,我们调查了大型语言模型(LLMs)内部的基于注意力的信息流是否通过明显的模式进行长文本处理的聚合。我们的观察结果显示,LLMs通过金字塔信息漏斗聚合信息,其中注意力在较低层面上广泛散布,逐渐在特定上下文中巩固,并最终集中在高层中的关键标记(也称为大量激活或注意力汇)上。受这些见解的启发,我们开发了PyramidKV,一种新颖而有效的KV缓存压缩方法。这种方法在不同的层之间动态调整KV缓存大小,将更多的缓存分配给较低的层,较少的缓存分配给较高的层,与保持统一KV缓存大小的传统方法不同。我们的实验评估利用LongBench基准测试,显示PyramidKV与具有完整KV缓存的模型的性能相匹配,同时仅保留12%的KV缓存,从而显着减少了内存使用。在强调内存效率的情况下,仅维护0.7%的KV缓存,PyramidKV超越其他KV缓存压缩技术,在TREC上实现了高达20.5绝对精度的提高。
- 图表
- 解决问题本论文旨在研究大型语言模型内部的注意力信息流是否会通过明显的模式进行聚合,以便进行长上下文处理。同时,本论文还提出了一个新的KV缓存压缩方法。
- 关键思路本论文提出了金字塔信息漏斗的概念,即注意力在较低层中广泛分散,逐渐在特定上下文中巩固,并最终集中在高层中的关键标记上。同时,提出了PyramidKV,一种新的KV缓存压缩方法,可以动态调整不同层的KV缓存大小,从而显著减少内存使用。
- 其它亮点实验评估使用了LongBench基准测试,结果表明PyramidKV与完整KV缓存的模型性能相当,但仅保留12%的KV缓存,从而显著减少内存使用。在强调内存效率的情况下,仅保留0.7%的KV缓存,PyramidKV优于其他KV缓存压缩技术,在TREC上实现了高达20.5绝对准确度的提高。
- 最近的相关研究包括《Efficient Attention: Attention with Linear Complexities》和《Reformer: The Efficient Transformer》。
沙发等你来抢
去评论
评论
沙发等你来抢