CRAG -- Comprehensive RAG Benchmark

2024年06月07日
  • 简介
    最近,Retrieval-Augmented Generation(RAG)已经成为缓解大型语言模型(LLM)知识不足的一个有前途的解决方案。然而,现有的RAG数据集并不能充分代表真实世界问答任务的多样性和动态性。为了弥补这一差距,我们介绍了全面的RAG基准(CRAG),这是一个事实问答基准,包括4,409个问题-答案对和模拟Web和知识图谱(KG)搜索的模拟API。CRAG旨在涵盖五个领域和八个问题类别的各种问题,反映了从热门到长尾的各种实体流行度以及从年到秒的时间动态。我们在这个基准上的评估突出了实现全面可信的问答的差距。尽管大多数先进的LLM在CRAG上的准确率只有<=34%,但以简单直接的方式添加RAG可以将准确率提高到44%。最先进的工业RAG解决方案只能回答63%的问题而不会产生幻觉。CRAG还揭示了回答关于具有更高动态性、较低流行度或更高复杂度的事实问题的准确性更低,这提示了未来的研究方向。CRAG基准为KDD Cup 2024挑战赛奠定了基础,在比赛的前50天内吸引了数千名参与者和提交。我们致力于维护CRAG以服务于研究社区,推动RAG解决方案和通用QA解决方案的发展。
  • 图表
  • 解决问题
    提出 Comprehensive RAG Benchmark(CRAG)解决现有 RAG 数据集不足以代表真实 QA 任务的问题,以及验证 RAG 在解决 QA 中的有效性。
  • 关键思路
    通过设计包含多个领域和问题类型、反映实体流行度和时间动态性的 CRAG 数据集,评估现有 LLM 和 RAG 的性能,并提出未来研究方向。
  • 其它亮点
    CRAG 数据集包含 4,409 个问题-答案对和模拟 Web 和 KG 搜索的虚拟 API,评估结果显示现有 LLM 在 CRAG 上的表现较差,加入 RAG 仅能将准确率提高至 44%,行业最先进的 RAG 解决方案只能回答 63% 的问题,而且在回答动态性更高、流行度更低或更复杂的问题时准确率更低。CRAG 数据集为 KDD Cup 2024 挑战赛奠定了基础,吸引了数千名参与者和提交的作品。
  • 相关研究
    与该论文相关的研究包括:《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》、《REALM: Retrieval-Augmented Language Model Pre-Training》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论