SciCode: A Research Coding Benchmark Curated by Scientists

2024年07月18日
  • 简介
    由于语言模型(LMs)在许多具有挑战性的任务上现在已经胜过普通人,因此开发具有挑战性、高质量和真实的评估变得越来越困难。我们通过检查LMs解决真实科学研究问题的代码生成能力来解决这个问题。在16个不同的自然科学子领域中,包括数学、物理、化学、生物和材料科学等,结合科学家和人工智能研究人员的意见,我们创建了一个由科学家策划的编码基准SciCode。SciCode中的问题自然地分解成多个子问题,每个子问题涉及知识回忆、推理和代码合成。总共,SciCode包含从80个具有挑战性的主要问题分解出的338个子问题。它提供了有用的科学背景信息的可选描述,以及科学家注释的金标准解决方案和测试用例进行评估。在测试的模型中表现最佳的Claude3.5-Sonnet,在最现实的设置下只能解决4.6%的问题。我们相信,SciCode展示了当代LMs成为有用的科学助手的进展,并为未来科学AI的开发和评估提供了启示。
  • 作者讲解
  • 图表
  • 解决问题
    SciCode: A Comprehensive Coding Benchmark for Natural Science Tasks
  • 关键思路
    使用科学家提供的数据,创建了一个科学领域的编码基准测试(SciCode),用于评估语言模型在解决实际科学问题时的能力。
  • 其它亮点
    SciCode包含338个子问题和80个主要问题。实验结果表明,当前最好的模型只能在最现实的情况下解决4.6%的问题。SciCode为未来科学人工智能的发展和评估提供了新思路。
  • 相关研究
    近期的相关研究包括:1.《GPT-3: Language Models are Few-Shot Learners》;2.《How Can We Know What Language Models Know?》;3.《Evaluating Large Language Models Trained on Code》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问