TurboRAG: Accelerating Retrieval-Augmented Generation with Precomputed KV Caches for Chunked Text

Songshuo Lu ,
Hua Wang ,
Yutian Rong ,
Zhi Chen ,
Yaohua Tang
261
热度
2024年10月10日
  • 简介
    当前的检索增强生成系统(RAG)需要连接和处理许多检索到的文档块来进行预填充,这需要大量计算,因此导致了显著的时间-第一个标记(TTFT)延迟。为了减少计算开销以及TTFT,我们引入了TurboRAG,这是一个新颖的RAG系统,通过重新设计当前RAG系统的推理范式,首先离线预计算和存储文档的键值(KV)缓存,然后直接检索保存的KV缓存进行预填充。因此,在推理过程中消除了在线计算KV缓存的需要。此外,我们提供了一些关于掩码矩阵和位置嵌入机制的见解,并微调了预训练语言模型,以保持TurboRAG的模型准确性。我们的方法适用于大多数现有的大型语言模型及其应用,无需修改模型和推理系统。在一系列RAG基准测试中的实验结果表明,TurboRAG将TTFT降低了多达9.4倍,与传统的RAG系统相比(平均降低了8.6倍),但保持了与标准RAG系统相当的性能。
  • 图表
  • 解决问题
    TurboRAG试图解决当前Retrieval-Augmented Generation (RAG)系统中,大量计算导致的时间延迟问题,通过离线计算和存储文档的键值(KV)缓存来优化预填充过程。
  • 关键思路
    TurboRAG的关键思路是通过离线计算和存储KV缓存来避免在线计算KV缓存,从而减少计算开销和时间延迟。此外,论文还提供了关于掩码矩阵和位置嵌入机制的一些见解,并微调预训练语言模型以保持模型准确性。
  • 其它亮点
    TurboRAG可以将时间延迟降低高达9.4倍,平均降低8.6倍,而且性能与标准RAG系统相当。实验使用了一系列RAG基准测试,并且该方法适用于大多数现有的大型语言模型和应用程序,无需修改模型和推理系统。
  • 相关研究
    最近的相关研究包括RAG系统的改进和优化,如使用不同的检索策略和模型架构。例如,标题为“Retrieval-Augmented Language Model Pretraining”的论文提出了一种改进的预训练方法,将检索信息与语言模型的训练相结合。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论