Evaluating Retrieval Quality in Retrieval-Augmented Generation

2024年04月21日
  • 简介
    评估检索增强生成(RAG)存在挑战,尤其是对于这些系统中的检索模型。传统的端到端评估方法计算成本高。此外,基于查询-文档相关性标签评估检索模型的性能与RAG系统的下游性能之间存在较小的相关性。我们提出了一种新的评估方法eRAG,其中检索列表中的每个文档都被RAG系统中的大型语言模型单独利用。然后,针对每个文档生成的输出根据下游任务的真实标签进行评估。通过这种方式,每个文档的下游性能作为其相关性标签。我们使用各种下游任务指标获取文档级注释,并使用集合或排名指标进行聚合。广泛的数据集实验表明,与基线方法相比,eRAG与下游RAG性能的相关性更高,Kendall的τ相关性提高了0.168至0.494。此外,eRAG提供了显着的计算优势,提高了运行时间,并且消耗的GPU内存最多少了50倍。
  • 图表
  • 解决问题
    论文旨在解决检索增强生成(RAG)中的评估问题,特别是针对这些系统中的检索模型。传统的端到端评估方法计算成本高昂。此外,基于查询-文档相关性标签评估检索模型的性能与RAG系统的下游性能之间的相关性很小。该论文提出了一种新的评估方法eRAG,通过将检索列表中的每个文档单独用于RAG系统中的大型语言模型,然后根据下游任务的真实标签评估每个文档生成的输出,从而为每个文档提供下游性能作为其相关性标签。通过使用各种下游任务指标获取文档级注释,并使用基于集合或排名的指标进行聚合。
  • 关键思路
    eRAG是一种新的评估方法,通过将检索列表中的每个文档单独用于RAG系统中的大型语言模型,然后根据下游任务的真实标签评估每个文档生成的输出,从而为每个文档提供下游性能作为其相关性标签。
  • 其它亮点
    该论文提出的eRAG方法在各种数据集上的实验中,与基线方法相比,Kendall的$\tau$相关性提高了0.168到0.494。此外,eRAG具有显着的计算优势,提高了运行时间,并且消耗的GPU内存最多少了50倍。该论文的实验设计详细,使用了广泛的数据集,并提供了开源代码。
  • 相关研究
    近期在这个领域中,还有一些相关的研究,如《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》、《Plug and Play Language Models: A Simple Approach to Controlled Text Generation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论