Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

简介

Retrieval Augmented Generation（RAG）是大型语言模型（LLMs）高效处理过长语境的强大工具。然而，最近的LLMs（如Gemini-1.5和GPT-4）展现了直接理解长语境的异常能力。我们进行了全面比较RAG和长语境（LC）LLMs，旨在利用两者的优势。我们使用三个最新的LLMs在各种公共数据集上对RAG和LC进行基准测试。结果表明，当资源充足时，LC在平均性能方面始终优于RAG。然而，RAG的成本显著较低，仍然是一个独特的优势。基于这一观察，我们提出了Self-Route，这是一种简单而有效的方法，可以根据模型自我反思将查询路由到RAG或LC。Self-Route显著降低了计算成本，同时保持了与LC相当的性能。我们的发现为使用RAG和LC的LLMs的长语境应用提供了指导。
图表
解决问题

RAG和LC LLMs的比较研究，旨在结合两者的优势来处理长文本应用中的问题。
关键思路

使用自我反思的方法，将查询路由到RAG或LC，从而在保持可比性能的同时显著降低计算成本。
其它亮点

实验结果表明，当资源充足时，LC在平均性能方面始终优于RAG，但RAG的成本更低。论文提出的Self-Route方法能够显著降低计算成本同时保持与LC可比的性能。
相关研究

相关研究包括RAG和LLMs的应用研究，以及自我反思技术的应用研究。