Prompt Cache: Modular Attention Reuse for Low-Latency Inference

简介

我们提出了Prompt Cache，一种加速大型语言模型（LLM）推理的方法，通过重复使用不同LLM提示之间的注意力状态。许多输入提示具有重叠的文本段，例如系统消息、提示模板和提供上下文的文档。我们的关键洞察是，在推理服务器上预先计算和存储这些频繁出现的文本段的注意力状态，当这些段出现在用户提示中时，我们可以有效地重复使用它们。Prompt Cache采用架构来明确定义这些可重用的文本段，称为提示模块。该架构确保在注意力状态重用期间的位置精度，并为用户提供访问其提示中缓存状态的接口。使用原型实现，我们评估了Prompt Cache在几个LLM上的表现。我们表明，Prompt Cache显著减少了时间到第一个标记的延迟，特别是对于基于文档的问答和推荐等较长的提示。改进范围从GPU推理的8倍到CPU推理的60倍，同时保持输出准确性并且不需要模型参数修改。
图表
解决问题

Prompt Cache试图解决大型语言模型推理过程中的延迟问题，通过重用注意力状态来加速推理过程。
关键思路

Prompt Cache通过预计算和存储常见文本片段的注意力状态，以便在用户提示中出现这些片段时进行有效重用。Prompt Cache使用模式来定义可重用的文本片段，称为提示模块，并提供用户接口以在其提示中访问缓存状态。
其它亮点

论文使用原型实现评估了Prompt Cache在几个大型语言模型上的性能，显示Prompt Cache显著降低了时间-首个令牌的延迟，特别是对于基于文档的问答和推荐等较长的提示。改进范围从GPU推理的8倍到CPU推理的60倍，同时保持输出准确性且不需要模型参数修改。
相关研究

相关论文：1. Efficient Content-Based Sparse Attention with Routing Transformers，作者：Zhilin Yang等，机构：Carnegie Mellon University；2. Learning to Cache for Transformer Decoding，作者：Yingce Xia等，机构：University of Science and Technology of China。

Prompt Cache: Modular Attention Reuse for Low-Latency Inference

评论