- 简介本文提出了AttentionStore,这是一种新的注意力机制,可在多轮会话中实现键值(KV)缓存的重用(即注意力重用),从而显著减少重复计算开销。AttentionStore维护了一个分层KV缓存系统,利用成本效益高的内存/存储介质保存所有请求的KV缓存。为了减少来自慢介质的KV缓存访问开销,AttentionStore采用逐层预加载和异步保存方案,以重叠KV缓存访问和GPU计算。为确保要访问的KV缓存放置在最快的层次中,AttentionStore采用调度器感知的获取和驱逐方案,根据推理作业调度器的提示有意识地将KV缓存放置在不同的层次中。为避免上下文窗口溢出引起的保存KV缓存的失效,AttentionStore通过解耦位置编码并有效地截断KV缓存使保存的KV缓存保持有效。广泛的实验结果表明,AttentionStore将第一个标记的时间(TTFT)降低了高达88%,将多轮对话的提示填充吞吐量提高了8.2倍,并将端到端推理成本降低了高达56%。对于长序列推理,AttentionStore将TTFT降低了高达95%,将提示填充吞吐量提高了22倍。
- 图表
- 解决问题论文提出 AttentionStore,一种新的注意力机制,旨在解决现有大语言模型服务引擎在执行多轮对话时需要重复计算历史令牌的键值(KV)缓存,导致高昂的服务成本的问题。
- 关键思路AttentionStore 维护一个分层的 KV 缓存系统,利用成本效益较高的内存/存储介质为所有请求保存 KV 缓存,并采用分层预加载和异步保存方案来减少 KV 缓存访问开销。AttentionStore 还采用调度程序感知的获取和驱逐方案,以根据推理作业调度程序的提示有意识地将 KV 缓存放置在不同的层中,以确保要访问的 KV 缓存放置在最快的层次中。此外,AttentionStore 还通过解耦位置编码和有效截断 KV 缓存来保持保存的 KV 缓存的有效性,避免了上下文窗口溢出所导致的 KV 缓存失效问题。
- 其它亮点AttentionStore 可以显著降低第一个令牌的时间(TTFT)高达 88%,将多轮对话的提示预填充吞吐量提高 8.2 倍,并将端到端推理成本降低高达 56%。对于长序列推理,AttentionStore 将 TTFT 降低高达 95%,将提示预填充吞吐量提高 22倍。论文使用了多个数据集进行实验,实验结果表明 AttentionStore 的性能显著优于现有的对话系统模型。
- 在该领域的相关研究包括:《Attention Is All You Need》、《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》、《Unified Language Model Pre-training for Natural Language Understanding and Generation》等。
沙发等你来抢
去评论
评论
沙发等你来抢