Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks

简介

检索增强生成（RAG）作为一种强大的方法，通过整合外部知识源来提升语言模型的能力，已经引起了广泛关注。然而，RAG引入了诸如检索延迟、文档选择中的潜在错误以及系统复杂性增加等挑战。随着具有显著扩展上下文窗口的大规模语言模型（LLMs）的出现，本文提出了一种替代范式，即缓存增强生成（CAG），以绕过实时检索。我们的方法包括预加载所有相关资源，特别是在检索所需的文档或知识量有限且可管理的情况下，将其加载到LLM的扩展上下文中，并缓存其运行时参数。在推理过程中，模型利用这些预加载的参数来回答查询，而无需额外的检索步骤。比较分析表明，CAG消除了检索延迟并最小化了检索错误，同时保持了上下文的相关性。多个基准测试的性能评估突显了长上下文LLM在某些情况下超越或补充传统RAG管道的场景。这些发现表明，对于某些应用，特别是那些具有受限知识库的应用，CAG提供了一种简化且高效的替代方案，以减少复杂性并实现相当或更优的结果。
图表
解决问题

论文试图解决的问题是如何在语言模型中高效地整合外部知识，特别是在面对检索延迟、文档选择错误以及系统复杂性增加等挑战时。这并不是一个全新的问题，但在大规模语言模型（LLMs）出现后，如何利用其扩展的上下文窗口来优化这一过程成为了一个新的研究焦点。
关键思路

关键思路是提出了一种名为缓存增强生成（CAG）的新范式，通过预先加载所有相关资源到LLM的扩展上下文中，并缓存其运行时参数，从而避免了实时检索的需求。相比传统的检索增强生成（RAG），CAG减少了检索延迟和错误，同时简化了系统架构。
其它亮点

论文的亮点包括：1) 消除了检索延迟并最小化了检索错误；2) 在多个基准测试中展示了长上下文LLM在特定应用场景下的优越性能；3) 提供了开源代码和数据集，便于后续研究者进行复现和改进。未来值得深入研究的方向包括进一步优化缓存机制以及探索更多适合CAG的应用场景。
相关研究

最近在这个领域中的相关研究包括《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》和《Long-Context Language Models: Challenges and Opportunities》。这些研究探讨了如何通过不同的方法将外部知识有效地融入到语言模型中，以提高其在知识密集型任务上的表现。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论