RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

2024年08月02日
  • 简介
    检索增强生成系统(RAG)已经展示了它们在减少大型语言模型(LLMs)的幻觉方面的优势。现有的RAG基准主要集中于评估LLMs是否能够正确回答一般知识。然而,它们无法评估RAG系统在处理来自不同垂直领域的数据方面的有效性。本文介绍了RAGEval,一个用于自动生成评估数据集以评估不同LLMs在不同场景下使用知识的能力的框架。具体而言,RAGEval从种子文档中总结模式,应用配置生成不同的文档,并根据文章和配置构建问答对。我们提出了三个新颖的指标:完整性、幻觉和无关性,来仔细评估LLMs生成的响应。通过在垂直领域中对RAG模型进行基准测试,RAGEval能够更好地评估LLMs的知识使用能力,避免现有QA数据集中回答问题的知识来源(无论是来自参数化记忆还是检索)的混淆。代码和数据集将被发布。
  • 作者讲解·1
  • 图表
  • 解决问题
    评估Retrieval-Augmented Generation系统在不同垂直领域中的知识使用能力
  • 关键思路
    提出了RAGEval框架,用于自动生成评估数据集,以评估不同LLMs在不同场景下的知识使用能力
  • 其它亮点
    引入了三个新颖的指标来评估LLMs生成的响应,提高了评估的准确性。该框架可以更好地评估LLMs的知识使用能力,避免了现有QA数据集中关于知识来源的混淆。作者将发布代码和数据集。
  • 相关研究
    最近的相关研究主要集中在评估LLMs在一般知识方面的回答能力,例如SQuAD和TriviaQA。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问