CRAG -- Comprehensive RAG Benchmark

简介

最近，Retrieval-Augmented Generation（RAG）已经成为缓解大型语言模型（LLM）知识不足的一个有前途的解决方案。然而，现有的RAG数据集并不能充分代表真实世界问答任务的多样性和动态性。为了弥补这一差距，我们介绍了全面的RAG基准（CRAG），这是一个事实问答基准，包括4,409个问题-答案对和模拟Web和知识图谱（KG）搜索的模拟API。CRAG旨在涵盖五个领域和八个问题类别的各种问题，反映了从热门到长尾的各种实体流行度以及从年到秒的时间动态。我们在这个基准上的评估突出了实现全面可信的问答的差距。尽管大多数先进的LLM在CRAG上的准确率只有<=34％，但以简单直接的方式添加RAG可以将准确率提高到44％。最先进的工业RAG解决方案只能回答63％的问题而不会产生幻觉。CRAG还揭示了回答关于具有更高动态性、较低流行度或更高复杂度的事实问题的准确性更低，这提示了未来的研究方向。CRAG基准为KDD Cup 2024挑战赛奠定了基础，在比赛的前50天内吸引了数千名参与者和提交。我们致力于维护CRAG以服务于研究社区，推动RAG解决方案和通用QA解决方案的发展。
图表
解决问题

提出 Comprehensive RAG Benchmark（CRAG）解决现有 RAG 数据集不足以代表真实 QA 任务的问题，以及验证 RAG 在解决 QA 中的有效性。
关键思路

通过设计包含多个领域和问题类型、反映实体流行度和时间动态性的 CRAG 数据集，评估现有 LLM 和 RAG 的性能，并提出未来研究方向。
其它亮点

CRAG 数据集包含 4,409 个问题-答案对和模拟 Web 和 KG 搜索的虚拟 API，评估结果显示现有 LLM 在 CRAG 上的表现较差，加入 RAG 仅能将准确率提高至 44%，行业最先进的 RAG 解决方案只能回答 63% 的问题，而且在回答动态性更高、流行度更低或更复杂的问题时准确率更低。CRAG 数据集为 KDD Cup 2024 挑战赛奠定了基础，吸引了数千名参与者和提交的作品。
相关研究

与该论文相关的研究包括：《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》、《REALM: Retrieval-Augmented Language Model Pre-Training》等。

CRAG -- Comprehensive RAG Benchmark

评论