Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG

简介

检索增强生成（RAG）赋予大型语言模型（LLM）利用外部知识源的能力。LLM处理更长输入序列的能力增强了提供更多检索信息的可能性，以潜在地提高生成输出的质量。可以假设更大的检索集合将包含更多相关信息（更高的召回率），这可能会导致改进性能。然而，我们的实证研究表明，对于许多长上下文LLM，生成输出的质量一开始会得到提高，但随着检索段落数量的增加，质量随后会下降。本文研究了这种现象，确定了检索“难负面”对生成质量的不利影响是主要因素之一。为了减轻这种影响并增强基于长上下文LLM的RAG的鲁棒性，我们提出了无需训练和基于训练的方法。我们首先展示了检索重新排序作为一种简单而强大的无需训练的优化的有效性。此外，我们探索了基于训练的方法，特别是RAG特定的隐式LLM微调和带中间推理的RAG定向微调，证明了它们具有实现重大性能提升的能力。最后，我们对这些基于训练的方法的设计选择进行了系统分析，包括数据分布、检索器选择和训练上下文长度。
图表
解决问题

本文旨在解决RAG模型中使用大量检索文本会导致生成结果质量下降的问题，提出了一些解决方案。
关键思路

通过重新排序检索结果、RAG-specific implicit LLM fine-tuning和RAG-oriented fine-tuning with intermediate reasoning等方法，提高RAG模型的鲁棒性和性能。
其它亮点

实验结果表明，使用大量检索文本会导致生成结果质量下降，主要原因是检索结果中存在的“hard negatives”，本文提出了一些解决方案，包括重新排序检索结果、RAG-specific implicit LLM fine-tuning和RAG-oriented fine-tuning with intermediate reasoning等方法。实验使用了多个数据集，包括Wikipedia、GPT-2和Turing-NLG等，代码已经开源。
相关研究

在相关研究方面，最近的一些研究包括UniLM、DPR和REALM等。

Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG

评论