CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark

2024年09月17日
  • 简介
    AI智能代理有潜力帮助用户完成各种重要任务,包括进行科学研究。为了促进有用代理的发展,我们需要具有挑战性但更重要的是直接对应感兴趣的实际任务的基准。本文介绍了这样一个基准,旨在衡量AI代理在解决科学研究中一个至关重要但令人惊讶地具有挑战性的方面的准确性:计算再现性。这个任务对科学过程至关重要,它涉及使用提供的代码和数据重现研究结果。我们介绍了CORE-Bench(计算再现性代理基准),这是一个基准,由三个学科(计算机科学、社会科学和医学)中的90篇科学论文构成,包括270个任务。CORE-Bench中的任务包括三个难度级别,包括仅语言和视觉语言任务。我们提供了一个评估系统,以快速并行的方式测量代理的准确性,与顺序实现相比,每次运行可以节省数天的评估时间。我们评估了两个基准代理:通用的AutoGPT和称为CORE-Agent的任务特定代理。我们使用两种基础语言模型(GPT-4o和GPT-4o-mini)测试了两个变体。最好的代理在最难的任务上达到了21%的准确性,显示了自动化例行科学任务的改进空间。拥有可以重现现有工作的代理是构建可以进行新型研究并可以验证和改进其他研究代理的代理的必要步骤。我们希望CORE-Bench可以改善再现性的状态,并促进未来研究代理的发展。
  • 图表
  • 解决问题
    CORE-Bench: 一个用于衡量人工智能代理在科学研究中的计算可重复性的基准测试
  • 关键思路
    这篇论文提出了一个基准测试CORE-Bench,用于衡量人工智能代理在计算可重复性方面的准确性。该基准测试包括270个任务,涵盖计算机科学、社会科学和医学三个领域,包括三个难度级别和语言-视觉任务。
  • 其它亮点
    实验采用了两个基线代理:通用的AutoGPT和针对任务的CORE-Agent。使用了两个基础语言模型:GPT-4o和GPT-4o-mini。最佳代理在最难的任务上实现了21%的准确性,显示了自动化科学任务的巨大改进空间。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如“Benchmarking Language Models for Code-Related Tasks”和“Reproducibility in Artificial Intelligence Research”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论