RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

2024年08月02日
  • 简介
    Retrieval-Augmented Generation (RAG)系统已经证明了其在缓解大型语言模型(LLMs)的幻觉方面的优势。现有的RAG基准主要集中在评估LLMs是否能够正确回答一般知识。然而,它们无法评估RAG系统在处理来自不同垂直领域的数据方面的效果。本文介绍了RAGEval,一个自动生成评估数据集的框架,用于评估不同LLMs在不同场景下的知识使用能力。具体而言,RAGEval从种子文档中总结架构,应用配置生成多样化的文档,并根据文章和配置构建问答对。我们提出了三个新颖的指标,即完整性、幻觉和无关性,来仔细评估LLMs生成的响应。通过在垂直领域中对RAG模型进行基准测试,RAGEval有能力更好地评估LLMs的知识使用能力,避免在现有的QA数据集中回答问题时存在有关知识来源(是来自参数化记忆还是检索)的混淆。
  • 图表
  • 解决问题
    RAGEval框架旨在解决现有RAG基准测试无法评估不同垂直领域中LLMs知识使用能力的问题。
  • 关键思路
    通过从种子文档中总结模式,应用配置生成不同的文档,并根据文章和配置构建问答对,提出三个新颖的度量标准来评估LLMs生成的响应。
  • 其它亮点
    RAGEval框架可用于评估LLMs在垂直领域中的知识使用能力。实验结果表明,RAGEval可以更好地评估LLMs的性能。
  • 相关研究
    最近的相关研究包括RAG模型的改进和基准测试的设计,如Turing-NLG和WebNLG。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论