NEW

SciCode: A Research Coding Benchmark Curated by Scientists

Minyang Tian ,

Luyu Gao ,

Shizhuo Dylan Zhang ,

Xinan Chen ,

Cunwei Fan ,

Xuefei Guo ,

Roland Haas ,

Pan Ji ,

Kittithat Krongchon ,

Yao Li ,

Shengyan Liu ,

Di Luo ,

Yutao Ma ,

Hao Tong ,

Kha Trinh ,

Chenyu Tian ,

Zihan Wang ,

Bohao Wu ,

Yanyu Xiong ,

Shengzhu Yin ,

Minhui Zhu ,

Kilian Lieret ,

Yanxin Lu ,

Genglin Liu ,

Yufeng Du ,

Tianhua Tao ,

Ofir Press ,

Jamie Callan ,

Eliu Huerta ,

Hao Peng

2024年07月18日

简介

由于语言模型（LMs）在许多具有挑战性的任务上现在已经胜过普通人，因此开发具有挑战性、高质量和真实的评估变得越来越困难。我们通过检查LMs解决真实科学研究问题的代码生成能力来解决这个问题。在16个不同的自然科学子领域中，包括数学、物理、化学、生物和材料科学等，结合科学家和人工智能研究人员的意见，我们创建了一个由科学家策划的编码基准SciCode。SciCode中的问题自然地分解成多个子问题，每个子问题涉及知识回忆、推理和代码合成。总共，SciCode包含从80个具有挑战性的主要问题分解出的338个子问题。它提供了有用的科学背景信息的可选描述，以及科学家注释的金标准解决方案和测试用例进行评估。在测试的模型中表现最佳的Claude3.5-Sonnet，在最现实的设置下只能解决4.6%的问题。我们相信，SciCode展示了当代LMs成为有用的科学助手的进展，并为未来科学AI的开发和评估提供了启示。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

SciCode: A Comprehensive Coding Benchmark for Natural Science Tasks
关键思路

使用科学家提供的数据，创建了一个科学领域的编码基准测试（SciCode），用于评估语言模型在解决实际科学问题时的能力。
其它亮点

SciCode包含338个子问题和80个主要问题。实验结果表明，当前最好的模型只能在最现实的情况下解决4.6%的问题。SciCode为未来科学人工智能的发展和评估提供了新思路。
相关研究

近期的相关研究包括：1.《GPT-3: Language Models are Few-Shot Learners》；2.《How Can We Know What Language Models Know?》；3.《Evaluating Large Language Models Trained on Code》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问