RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation

简介

Retrieval-Augmented Generation (RAG)通过整合大型语言模型（LLM）和外部知识数据库，已经在各种自然语言处理任务中显示出显著的改进。然而，RAG引入了长序列生成，导致计算和内存成本高。我们提出了Thoth，一种专为RAG定制的新型多级动态缓存系统。我们的分析基准测试了当前的RAG系统，确定了性能瓶颈（即由于知识注入导致的长序列）和优化机会（即缓存知识的中间状态）。基于这些见解，我们设计了Thoth，它将检索到的知识的中间状态组织成知识树，并将它们缓存在GPU和主机内存层次结构中。Thoth提出了一种替换策略，该策略了解LLM推理特征和RAG检索模式。它还动态地重叠检索和推理步骤，以最小化端到端延迟。我们实现了Thoth，并在vLLM（最先进的LLM推理系统）和Faiss（最先进的向量数据库）上对其进行了评估。实验结果显示，与集成Faiss的vLLM相比，Thoth将首个令牌的时间（TTFT）缩短了4倍，并将吞吐量提高了2.1倍。
图表
解决问题

本文旨在解决Retrieval-Augmented Generation（RAG）中长序列生成带来的高计算和内存成本问题，提出了一种多层动态缓存系统Thoth。
关键思路

Thoth通过组织检索到的知识的中间状态并将其缓存在GPU和主机内存层次结构中，提出了一种替换策略，可以动态重叠检索和推理步骤，以最小化端到端延迟。
其它亮点

实验结果表明，相对于vLLM集成Faiss，Thoth将时间到第一个标记（TTFT）降低了最多4倍，并将吞吐量提高了最多2.1倍。
相关研究

最近的相关研究包括RAG和LLMs的应用，以及动态缓存技术的研究。

RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation

评论