RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation

2024年04月18日
  • 简介
    Retrieval-Augmented Generation (RAG)通过整合大型语言模型(LLM)和外部知识数据库,已经在各种自然语言处理任务中显示出显著的改进。然而,RAG引入了长序列生成,导致计算和内存成本高。我们提出了Thoth,一种专为RAG定制的新型多级动态缓存系统。我们的分析基准测试了当前的RAG系统,确定了性能瓶颈(即由于知识注入导致的长序列)和优化机会(即缓存知识的中间状态)。基于这些见解,我们设计了Thoth,它将检索到的知识的中间状态组织成知识树,并将它们缓存在GPU和主机内存层次结构中。Thoth提出了一种替换策略,该策略了解LLM推理特征和RAG检索模式。它还动态地重叠检索和推理步骤,以最小化端到端延迟。我们实现了Thoth,并在vLLM(最先进的LLM推理系统)和Faiss(最先进的向量数据库)上对其进行了评估。实验结果显示,与集成Faiss的vLLM相比,Thoth将首个令牌的时间(TTFT)缩短了4倍,并将吞吐量提高了2.1倍。
  • 图表
  • 解决问题
    本文旨在解决Retrieval-Augmented Generation(RAG)中长序列生成带来的高计算和内存成本问题,提出了一种多层动态缓存系统Thoth。
  • 关键思路
    Thoth通过组织检索到的知识的中间状态并将其缓存在GPU和主机内存层次结构中,提出了一种替换策略,可以动态重叠检索和推理步骤,以最小化端到端延迟。
  • 其它亮点
    实验结果表明,相对于vLLM集成Faiss,Thoth将时间到第一个标记(TTFT)降低了最多4倍,并将吞吐量提高了最多2.1倍。
  • 相关研究
    最近的相关研究包括RAG和LLMs的应用,以及动态缓存技术的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论