DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

2025年06月13日
  • 简介
    深度研究代理(Deep Research Agents, DRAs)是基于大语言模型(LLM)的智能体中一个重要的类别。通过自主协调多步骤的网络探索、定向检索以及高层次的信息综合,它们能够将海量的在线信息转化为富含引用且达到分析师水平的研究报告——将原本需要数小时的手动桌面研究压缩至几分钟内完成。然而,目前尚缺乏一个全面的基准来系统性地评估这些代理的能力。为填补这一空白,我们提出了“DeepResearch Bench”基准测试,它包含100个博士水平的研究任务,由来自22个不同领域的专家精心设计。 评估深度研究代理本质上是一项复杂且耗时的工作。因此,我们提出了两种新颖的方法论,以实现与人类判断的高度一致。第一种方法是一种基于参考的评估方式,采用自适应标准来衡量生成的研究报告的质量。另一种框架则用于评估DRA的信息检索和收集能力,通过计算其有效引用数量及整体引用准确性来进行评判。我们已将“DeepResearch Bench”基准测试及其关键组件开源至 https://github.com/Ayanami0730/deep_research_bench,旨在加速实用型LLM基础代理的研发进程。
  • 图表
  • 解决问题
    论文试图解决当前深度研究代理(DRAs)缺乏系统性评估标准的问题。这是一个新问题,因为随着LLM技术的发展,针对这些复杂任务型代理的基准测试需求逐渐显现。
  • 关键思路
    论文提出了一种名为DeepResearch Bench的基准测试框架,包含100个由领域专家设计的博士级别研究任务,覆盖22个不同领域。同时引入了两种新颖的评估方法:一种是基于参考的自适应质量评估,另一种是针对信息检索和收集能力的引文准确性和覆盖率评估。这种综合性的方法填补了现有研究中的空白。
  • 其它亮点
    实验设计严谨,涉及多领域复杂任务,确保了评估的全面性和通用性。此外,作者开源了DeepResearch Bench及其核心组件,促进了社区对DRA的研究与改进。未来可以深入探索如何进一步优化评估指标以适应更广泛的场景,并开发更多自动化工具辅助人类研究者。数据集未明确提及,但其任务设计本身可视为一种高质量数据来源,代码已开源至GitHub。
  • 相关研究
    近期相关工作包括:1) 'Evaluating Large Language Models Trained on Code' 提出了针对代码生成模型的基准测试;2) 'LAMBO: LAnguage MOdels as Programmers' 探索了语言模型在编程领域的表现;3) 'Benchmarking Foundation Models' 提供了一个广泛的基础模型性能评估框架。然而,这些研究主要聚焦于单一技能或特定任务,而本文则专注于跨领域、多步骤推理的综合评估。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论