EnterpriseRAG-Bench: A RAG Benchmark for Company Internal Knowledge

2026年05月05日
  • 简介
    检索增强生成(RAG)已成为将大语言模型与训练阶段不可获取的信息进行事实锚定的标准方法。尽管当前已有数据集和评测基准主要聚焦于网络或其他公开信息源,但迄今尚无被广泛采用的数据集能够真实反映企业内部知识的典型特征。与此同时,初创公司、大型企业和研究人员正日益开发面向此类专有数据运行的AI智能体(AI Agents)。为填补这一关键空白,我们正式发布一个合成的企业级语料库、配套的生成框架,以及一个公开排行榜。 我们推出“EnterpriseRAG-Bench”——一个包含约50万份文档的企业级评测数据集,覆盖九类典型企业信息源(Slack、Gmail、Linear、Google Drive、HubSpot、Fireflies、GitHub、Jira 和 Confluence),并配有涵盖十大类别的500道问题,全面考察模型在信息检索与复杂推理两方面的能力。该语料库在构建时注重跨文档一致性(所有文档均基于共享的项目、人员与战略倡议进行建模),并注入了贴近真实场景的噪声,例如归档错误的文档、高度相似的近似重复文档,以及相互矛盾的信息。问题设计由浅入深:既包括简单的单文档查找任务,也涵盖多文档联合推理、受约束条件限制的精准检索、矛盾信息的识别与消解,以及对“信息缺失”情形的准确判断。其生成框架支持各团队根据自身所处行业、组织规模及信息源构成,灵活定制适配的变体数据集。本数据集、全部源代码、评测工具包(evaluation harness)及实时更新的排行榜均已开源,访问地址为:https://github.com/onyx-dot-app/EnterpriseRAG-Bench。
  • 作者讲解
  • 图表
  • 解决问题
    现有RAG基准(如Natural Questions、HotpotQA)主要基于公开网络数据,无法真实反映企业内部知识的复杂性——包括多源异构格式、跨文档语义关联、现实噪声(如误归档、冲突信息)及需多跳推理的业务场景。本文首次系统性地定义并填补了‘企业级私有知识RAG评估’这一关键空白。
  • 关键思路
    提出EnterpriseRAG-Bench:一个可复现、可定制的合成企业知识基准,通过建模真实组织结构(共享项目/人员/时间线)保障跨文档一致性,并显式注入企业典型噪声;其问题设计覆盖从单点检索到缺失信息识别共10类能力维度,且配套开源生成框架支持行业适配,突破了传统基准静态、公开、单源的局限。
  • 其它亮点
    • 首个覆盖9种主流企业协作源(Slack/Gmail/Jira/Confluence等)的合成语料库(500K文档)与500题高多样性评测集;• 问题类型包含约束检索、冲突消解、隐含依赖推理等真实Agent挑战;• 全流程开源:数据生成器、评估脚本、leaderboard及完整文档;• 框架支持按行业/规模/源分布定制变体,推动RAG在垂直场景的可信落地;• 实验设计强调‘现实有效性’而非单纯准确率,例如显式评估对误标文档或矛盾陈述的鲁棒性。
  • 相关研究
    • 'BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models' (Thakur et al., NeurIPS 2021);• 'RECALL: A Benchmark for Retrieval-Augmented Code Generation' (Li et al., ACL 2023);• 'SciFact: A Dataset for Scientific Claim Verification' (Wadden et al., EMNLP 2020);• 'MultiHop-RAG: Benchmarking Multi-Hop Reasoning in Retrieval-Augmented Generation' (Chen et al., arXiv 2024);• 'DocQuery: A Benchmark for Document-Level Question Answering' (Gupta et al., ACL 2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问