DIRAS: Efficient LLM-Assisted Annotation of Document Relevance in Retrieval Augmented Generation

简介

检索增强生成（RAG）被广泛用于基于领域特定文件的查询响应。但是，RAG实现是否遗漏了重要信息或过度包含了不相关的信息？为了消除这些担忧，有必要对领域特定基准进行注释以评估信息检索（IR）性能，因为相关性定义因查询和领域而异。此外，这些基准应该通过成本效益的注释来避免注释选择偏差。在本文中，我们提出了DIRAS（具有可扩展性的领域特定信息检索注释），这是一种无需手动注释的模式，通过微调开源LLMs来用校准的相关性概率注释相关性标签。广泛的评估表明，DIRAS微调模型在注释和排名未见过的（查询，文档）对方面实现了GPT-4级别的性能，并且对于实际的RAG开发是有帮助的。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出一种无需手动注释的方案，通过微调开源的LLMs来注释领域特定的文档，以评估信息检索性能。
关键思路

DIRAS方案通过微调LLMs来标注相关性标签，并使用校准的相关性概率对领域特定的文档进行注释，实现了GPT-4级别的性能表现。
其它亮点

该方案避免了手动注释的成本，并减少了注释选择偏差。实验结果表明，该方案在实现领域特定文档的注释和排名时具有很高的性能，对于实际的RAG开发有帮助。
相关研究

该论文提到了Retrieval Augmented Generation (RAG)的应用，以及需要注释领域特定基准来评估信息检索性能。

DIRAS: Efficient LLM-Assisted Annotation of Document Relevance in Retrieval Augmented Generation

提问交流

提问交流