检索增强生成(RAG)作为一种关键技术,通过引入外部信息来提高大型语言模型(LLM)的准确性。随着支持更长上下文长度的大型语言模型的出现,人们越来越关注这些模型在RAG场景中的表现。这些新的长上下文模型能否提升RAG性能?本文对增加上下文长度对RAG性能的影响进行了全面研究,涵盖了20种流行的开源和商业大型语言模型。我们在三个领域特定的数据集上运行了RAG工作流程,将总上下文长度从2,000到128,000个标记(在可能的情况下达到200万个标记)进行变化,并报告了长上下文在RAG应用中的优势和局限性的关键见解。我们的研究发现表明,虽然检索更多文档可以提高性能,但只有少数最新的最先进的大型语言模型能够在超过64,000个标记的长上下文中保持一致的准确性。我们还识别了长上下文场景中的不同失败模式,指出了未来研究的方向。