- 简介Retrieval-Augmented Generation (RAG)系统已经证明了其在缓解大型语言模型(LLMs)的幻觉方面的优势。现有的RAG基准主要集中在评估LLMs是否能够正确回答一般知识。然而,它们无法评估RAG系统在处理来自不同垂直领域的数据方面的效果。本文介绍了RAGEval,一个自动生成评估数据集的框架,用于评估不同LLMs在不同场景下的知识使用能力。具体而言,RAGEval从种子文档中总结架构,应用配置生成多样化的文档,并根据文章和配置构建问答对。我们提出了三个新颖的指标,即完整性、幻觉和无关性,来仔细评估LLMs生成的响应。通过在垂直领域中对RAG模型进行基准测试,RAGEval有能力更好地评估LLMs的知识使用能力,避免在现有的QA数据集中回答问题时存在有关知识来源(是来自参数化记忆还是检索)的混淆。
- 图表
- 解决问题RAGEval框架旨在解决现有RAG基准测试无法评估不同垂直领域中LLMs知识使用能力的问题。
- 关键思路通过从种子文档中总结模式,应用配置生成不同的文档,并根据文章和配置构建问答对,提出三个新颖的度量标准来评估LLMs生成的响应。
- 其它亮点RAGEval框架可用于评估LLMs在垂直领域中的知识使用能力。实验结果表明,RAGEval可以更好地评估LLMs的性能。
- 最近的相关研究包括RAG模型的改进和基准测试的设计,如Turing-NLG和WebNLG。
沙发等你来抢
去评论
评论
沙发等你来抢