DIRAS: Efficient LLM-Assisted Annotation of Document Relevance in Retrieval Augmented Generation

2024年06月20日
  • 简介
    检索增强生成(RAG)被广泛用于基于领域特定文件的查询响应。但是,RAG实现是否遗漏了重要信息或过度包含了不相关的信息?为了消除这些担忧,有必要对领域特定基准进行注释以评估信息检索(IR)性能,因为相关性定义因查询和领域而异。此外,这些基准应该通过成本效益的注释来避免注释选择偏差。在本文中,我们提出了DIRAS(具有可扩展性的领域特定信息检索注释),这是一种无需手动注释的模式,通过微调开源LLMs来用校准的相关性概率注释相关性标签。广泛的评估表明,DIRAS微调模型在注释和排名未见过的(查询,文档)对方面实现了GPT-4级别的性能,并且对于实际的RAG开发是有帮助的。
  • 作者讲解
  • 图表
  • 解决问题
    提出一种无需手动注释的方案,通过微调开源的LLMs来注释领域特定的文档,以评估信息检索性能。
  • 关键思路
    DIRAS方案通过微调LLMs来标注相关性标签,并使用校准的相关性概率对领域特定的文档进行注释,实现了GPT-4级别的性能表现。
  • 其它亮点
    该方案避免了手动注释的成本,并减少了注释选择偏差。实验结果表明,该方案在实现领域特定文档的注释和排名时具有很高的性能,对于实际的RAG开发有帮助。
  • 相关研究
    该论文提到了Retrieval Augmented Generation (RAG)的应用,以及需要注释领域特定基准来评估信息检索性能。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问