NEW

Evaluating Large Language Models in Scientific Discovery

Zhangde Song ,

Jieyu Lu ,

Yuanqi Du ,

Botao Yu ,

Thomas M. Pruyn ,

Yue Huang ,

Kehan Guo ,

Xiuzhe Luo ,

Yuanhao Qu ,

Yi Qu ,

Yinkai Wang ,

Haorui Wang ,

Jeff Guo ,

Jingru Gan ,

Parshin Shojaee ,

Di Luo ,

Andres M Bran ,

Gen Li ,

Qiyuan Zhao ,

Shao-Xiong Lennon Luo ,

Yuxuan Zhang ,

Xiang Zou ,

Wanru Zhao ,

Yifan F. Zhang ,

Wucheng Zhang ,

Shunan Zheng ,

Saiyang Zhang ,

Sartaaj Takrim Khan ,

Mahyar Rajabi-Kochi ,

Samantha Paradi-Maropakis ,

Tony Baltoiu ,

Fengyu Xie ,

Tianyang Chen ,

Kexin Huang ,

Weiliang Luo ,

Meijing Fang ,

Xin Yang ,

Lixue Cheng ,

Jiajun He ,

Soha Hassoun ,

Xiangliang Zhang ,

Wei Wang ,

Chandan K. Reddy ,

Chao Zhang ,

Zhiling Zheng ,

Mengdi Wang ,

Le Cong ,

Carla P. Gomes ,

Chang-Yu Hsieh ,

Aditya Nandy ,

Philippe Schwaller ,

Heather J. Kulik ,

Haojun Jia ,

Huan Sun ,

Seyed Mohamad Moosavi ,

Chenru Duan

热度 2451

2025年12月17日

简介

大型语言模型（LLM）正越来越多地应用于科学研究，然而当前主流的科学评测基准往往只考察脱离实际情境的知识，忽视了推动科学发现所必需的迭代式推理、假设生成以及对观测结果的解释能力。为此，我们提出了一种基于真实研究场景的评测基准，涵盖生物学、化学、材料学和物理学等领域：由领域专家设定具有真实科研价值的研究项目，并将其分解为若干模块化的研究场景，从中抽取经过审核的问题进行评估。该框架从两个层面评估模型表现：（i）在与具体场景绑定的问题上的回答准确率；（ii）在完整项目层面的能力，即模型需能提出可验证的假设、设计模拟或实验，并对结果进行解读。将这一两阶段的科学发现评估（SDE）框架应用于最先进的大语言模型后发现，相较于通用科学评测基准，这些模型在SDE中的表现存在持续的性能差距，且随着模型规模扩大和推理能力增强，性能提升趋于平缓；同时，来自不同厂商的顶尖模型均暴露出系统性的共性缺陷。由于各研究场景中模型表现差异显著，导致在不同科学发现项目中表现最优的模型也各不相同，这表明目前所有大语言模型距离实现通用科学“超级智能”仍有很大距离。尽管如此，大语言模型已在多种科学发现任务中展现出潜力，甚至在某些子场景得分较低的情况下仍能取得进展，凸显了引导性探索和偶然性在科学发现中的重要作用。该SDE框架为面向科学发现能力的LLM评估提供了可复现的基准，并指明了推动其向科学发现目标发展的切实可行路径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有的科学评估基准主要测试孤立的科学知识，忽略了科学发现中关键的迭代推理、假设生成和观察解释等过程。因此，当前缺乏能够真实反映大语言模型（LLM）在实际科研项目中支持科学发现能力的评估框架。该论文试图解决如何更真实、系统地评估LLM在多学科科学研究中的实用性这一问题，并验证现有LLM是否真正具备推动科学发现的能力。
关键思路

提出一种情境嵌入式的两阶段科学发现评估（Scientific Discovery Evaluation, SDE）框架：第一阶段评估模型在与研究场景绑定的具体问题上的准确性；第二阶段评估模型在整个科研项目层面的能力，包括提出可检验假设、设计实验或模拟、以及解释结果。该方法由领域专家定义真实科研项目并分解为模块化研究场景，确保评估贴近实际科研流程，突破了传统静态知识问答式测评的局限。
其它亮点

实验设计严谨，覆盖生物学、化学、材料学和物理学四个领域，问题由领域专家构建并审核，保证了内容的真实性与挑战性。结果显示：当前最先进的LLM在SDE框架下表现显著低于通用科学基准，模型规模扩大和推理优化带来的性能提升趋于饱和，且不同厂商的顶级模型表现出相似的系统性缺陷。有趣的是，即使在单个场景得分较低的情况下，某些模型仍能在完整项目中展现出探索性和偶然发现潜力，表明引导式探索在科学发现中的价值。目前尚未提及代码开源，但该框架具有高度可复现性，为后续LLM面向科学发现的发展提供了清晰路径。
相关研究

1. ‘SciBERT: A Pretrained Language Model for Scientific Text’ 2. ‘Evaluating Large Language Models on Scientific Question Answering’ 3. ‘Can AI Solve Science? Benchmarking LLMs on Real-World Research Tasks’ 4. ‘The Role of Large Language Models in Hypothesis Generation’ 5. ‘Benchmarking Foundation Models in Scientific Discovery: From Knowledge to Reasoning’

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问