- 简介最近,Retrieval-Augmented Generation(RAG)已经成为缓解大型语言模型(LLM)知识不足的一个有前途的解决方案。然而,现有的RAG数据集并不能充分代表真实世界问答任务的多样性和动态性。为了弥补这一差距,我们介绍了全面的RAG基准(CRAG),这是一个事实问答基准,包括4,409个问题-答案对和模拟Web和知识图谱(KG)搜索的模拟API。CRAG旨在涵盖五个领域和八个问题类别的各种问题,反映了从热门到长尾的各种实体流行度以及从年到秒的时间动态。我们在这个基准上的评估突出了实现全面可信的问答的差距。尽管大多数先进的LLM在CRAG上的准确率只有<=34%,但以简单直接的方式添加RAG可以将准确率提高到44%。最先进的工业RAG解决方案只能回答63%的问题而不会产生幻觉。CRAG还揭示了回答关于具有更高动态性、较低流行度或更高复杂度的事实问题的准确性更低,这提示了未来的研究方向。CRAG基准为KDD Cup 2024挑战赛奠定了基础,在比赛的前50天内吸引了数千名参与者和提交。我们致力于维护CRAG以服务于研究社区,推动RAG解决方案和通用QA解决方案的发展。
- 图表
- 解决问题提出 Comprehensive RAG Benchmark(CRAG)解决现有 RAG 数据集不足以代表真实 QA 任务的问题,以及验证 RAG 在解决 QA 中的有效性。
- 关键思路通过设计包含多个领域和问题类型、反映实体流行度和时间动态性的 CRAG 数据集,评估现有 LLM 和 RAG 的性能,并提出未来研究方向。
- 其它亮点CRAG 数据集包含 4,409 个问题-答案对和模拟 Web 和 KG 搜索的虚拟 API,评估结果显示现有 LLM 在 CRAG 上的表现较差,加入 RAG 仅能将准确率提高至 44%,行业最先进的 RAG 解决方案只能回答 63% 的问题,而且在回答动态性更高、流行度更低或更复杂的问题时准确率更低。CRAG 数据集为 KDD Cup 2024 挑战赛奠定了基础,吸引了数千名参与者和提交的作品。
- 与该论文相关的研究包括:《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》、《REALM: Retrieval-Augmented Language Model Pre-Training》等。
沙发等你来抢
去评论
评论
沙发等你来抢