RE-RAG: Improving Open-Domain QA Performance and Interpretability with Relevance Estimator in Retrieval-Augmented Generation

简介

Retrieval-augmented generation (RAG)框架通过引用外部知识，在开放域问答任务上展示了最先进的性能。然而，当输入的上下文相关性较低或输入上下文之间的相对相关性评估不准确时，RAG系统面临着性能下降的挑战。在本研究中，我们提出了一个RE-RAG框架，将显式的上下文相关性估计器(RE)注入到RAG系统中。RE-RAG使用提出的上下文RE重新评估检索到的上下文，并将更相关的上下文及其重要性传递给生成器。为了训练上下文RE，我们提出了一种无监督学习方法，不利用任何标记的文档排名数据来训练上下文RE。为了检验RE-RAG的有效性，我们在自然问题和TriviaQA数据集上检查其性能。RE-RAG在利用更少的上下文(0.25x)的情况下，达到了与FiD变体相当的性能。我们展示了用T5模型训练的上下文RE也适用于带有LLMs（ChatGPT）的RAG，分别在NQ（+6.4EM）和TQA（+2.8EM）上提高了性能。最后，我们展示RE可以为RAG框架增加可解释性，因为RE得分与RE-RAG的准确性高度相关。因此，RE可以用于过滤出不可回答的情况，其中上下文不包含答案，仅通过检查一组检索到的上下文就可以达到38.9%-51.3%的准确性。
图表
解决问题

本论文旨在解决Retrieval-augmented generation (RAG)在处理低相关性或无法准确评估输入上下文相关性时性能下降的问题，提出了一种名为RE-RAG的框架，它将一个显式的上下文相关性估计器(RE)注入到RAG系统中。
关键思路

RE-RAG重新评估了检索到的上下文，并使用提出的上下文RE传递更相关的上下文及其重要性度量给生成器。同时，论文提出了一种无监督学习方法来训练上下文RE，以避免使用任何标记的文档排名数据。
其它亮点

实验表明，RE-RAG在使用更少的上下文（0.25x）的情况下，与FiD变体相比实现了相当的性能。论文还展示了使用T5模型训练的上下文RE也适用于使用LLMs(ChatGPT)的RAG，可以分别在NQ（+6.4EM）和TQA（+2.8EM）上提高性能。此外，论文还表明，RE可以为RAG框架增加可解释性，因为RE得分与RE-RAG准确性高度相关。
相关研究

与本论文相关的研究包括：1. FiD: Framework for Interactive Document-Ranking; 2. T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer; 3. LLMs: Language Models Are Few-Shot Learners

RE-RAG: Improving Open-Domain QA Performance and Interpretability with Relevance Estimator in Retrieval-Augmented Generation

评论