- 简介Retrieval-Augmented Generation (RAG) 系统已经展示出在缓解大型语言模型 (LLMs) 的幻觉方面的优势。现有的 RAG 基准主要集中在评估 LLMs 是否能够正确回答一般知识。然而,它们无法评估 RAG 系统在处理来自不同垂直领域的数据方面的有效性。本文介绍了 RAGEval,这是一个用于自动生成评估数据集的框架,以评估不同 LLMs 在不同场景下的知识使用能力。具体而言,RAGEval 从种子文档中总结出模式,应用配置生成多样化文档,并根据文章和配置构建问答对。我们提出了三个新颖的指标,即完整性、幻觉和无关性,来仔细评估 LLMs 生成的响应。通过在垂直领域中对 RAG 模型进行基准测试,RAGEval 能够更好地评估 LLMs 的知识使用能力,避免现有问答数据集中回答问题的知识来源是否来自参数化记忆或检索方面的混淆。代码和数据集将会发布。
- 图表
- 解决问题本文旨在解决现有RAG基准测试主要关注于评估LLM在回答通用知识方面的正确性,而无法评估RAG系统在处理不同垂直领域数据时的有效性的问题。
- 关键思路本文提出了RAGEval框架,通过从种子文档中总结模式,应用配置生成多样化文档,并根据文章和配置构建问答对来自动生成评估数据集,从而评估不同LLM的知识使用能力。同时,提出了三个新的指标来评估LLM生成的响应:完整性、幻觉和不相关性。
- 其它亮点本文的亮点包括提出了一个新的框架来评估RAG系统在处理不同垂直领域数据时的有效性,提出了新的评估指标来评估LLM生成的响应,同时提供了数据集和代码。
- 最近的相关研究包括:1)RAG模型在通用知识问答中的应用,如REALM、DPR等;2)在垂直领域中使用RAG模型的研究,如BioRAG、LawRAG等。
沙发等你来抢
去评论
评论
沙发等你来抢