TurboRAG: Accelerating Retrieval-Augmented Generation with Precomputed KV Caches for Chunked Text

简介

当前的检索增强生成系统(RAG)需要连接和处理许多检索到的文档块来进行预填充，这需要大量计算，因此导致了显著的时间-第一个标记(TTFT)延迟。为了减少计算开销以及TTFT，我们引入了TurboRAG，这是一个新颖的RAG系统，通过重新设计当前RAG系统的推理范式，首先离线预计算和存储文档的键值(KV)缓存，然后直接检索保存的KV缓存进行预填充。因此，在推理过程中消除了在线计算KV缓存的需要。此外，我们提供了一些关于掩码矩阵和位置嵌入机制的见解，并微调了预训练语言模型，以保持TurboRAG的模型准确性。我们的方法适用于大多数现有的大型语言模型及其应用，无需修改模型和推理系统。在一系列RAG基准测试中的实验结果表明，TurboRAG将TTFT降低了多达9.4倍，与传统的RAG系统相比(平均降低了8.6倍)，但保持了与标准RAG系统相当的性能。
图表
解决问题

TurboRAG试图解决当前Retrieval-Augmented Generation (RAG)系统中，大量计算导致的时间延迟问题，通过离线计算和存储文档的键值（KV）缓存来优化预填充过程。
关键思路

TurboRAG的关键思路是通过离线计算和存储KV缓存来避免在线计算KV缓存，从而减少计算开销和时间延迟。此外，论文还提供了关于掩码矩阵和位置嵌入机制的一些见解，并微调预训练语言模型以保持模型准确性。
其它亮点

TurboRAG可以将时间延迟降低高达9.4倍，平均降低8.6倍，而且性能与标准RAG系统相当。实验使用了一系列RAG基准测试，并且该方法适用于大多数现有的大型语言模型和应用程序，无需修改模型和推理系统。
相关研究

最近的相关研究包括RAG系统的改进和优化，如使用不同的检索策略和模型架构。例如，标题为“Retrieval-Augmented Language Model Pretraining”的论文提出了一种改进的预训练方法，将检索信息与语言模型的训练相结合。

TurboRAG: Accelerating Retrieval-Augmented Generation with Precomputed KV Caches for Chunked Text

评论