RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

简介

检索增强生成系统（RAG）已经展示了它们在减少大型语言模型（LLMs）的幻觉方面的优势。现有的RAG基准主要集中于评估LLMs是否能够正确回答一般知识。然而，它们无法评估RAG系统在处理来自不同垂直领域的数据方面的有效性。本文介绍了RAGEval，一个用于自动生成评估数据集以评估不同LLMs在不同场景下使用知识的能力的框架。具体而言，RAGEval从种子文档中总结模式，应用配置生成不同的文档，并根据文章和配置构建问答对。我们提出了三个新颖的指标：完整性、幻觉和无关性，来仔细评估LLMs生成的响应。通过在垂直领域中对RAG模型进行基准测试，RAGEval能够更好地评估LLMs的知识使用能力，避免现有QA数据集中回答问题的知识来源（无论是来自参数化记忆还是检索）的混淆。代码和数据集将被发布。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

评估Retrieval-Augmented Generation系统在不同垂直领域中的知识使用能力
关键思路

提出了RAGEval框架，用于自动生成评估数据集，以评估不同LLMs在不同场景下的知识使用能力
其它亮点

引入了三个新颖的指标来评估LLMs生成的响应，提高了评估的准确性。该框架可以更好地评估LLMs的知识使用能力，避免了现有QA数据集中关于知识来源的混淆。作者将发布代码和数据集。
相关研究

最近的相关研究主要集中在评估LLMs在一般知识方面的回答能力，例如SQuAD和TriviaQA。

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

提问交流

提问交流