Evaluating Large Language Models in Scientific Discovery

2025年12月17日
  • 简介
    大型语言模型(LLM)正越来越多地应用于科学研究,然而当前主流的科学评测基准往往只考察脱离实际情境的知识,忽视了推动科学发现所必需的迭代式推理、假设生成以及对观测结果的解释能力。为此,我们提出了一种基于真实研究场景的评测基准,涵盖生物学、化学、材料学和物理学等领域:由领域专家设定具有真实科研价值的研究项目,并将其分解为若干模块化的研究场景,从中抽取经过审核的问题进行评估。该框架从两个层面评估模型表现:(i)在与具体场景绑定的问题上的回答准确率;(ii)在完整项目层面的能力,即模型需能提出可验证的假设、设计模拟或实验,并对结果进行解读。将这一两阶段的科学发现评估(SDE)框架应用于最先进的大语言模型后发现,相较于通用科学评测基准,这些模型在SDE中的表现存在持续的性能差距,且随着模型规模扩大和推理能力增强,性能提升趋于平缓;同时,来自不同厂商的顶尖模型均暴露出系统性的共性缺陷。由于各研究场景中模型表现差异显著,导致在不同科学发现项目中表现最优的模型也各不相同,这表明目前所有大语言模型距离实现通用科学“超级智能”仍有很大距离。尽管如此,大语言模型已在多种科学发现任务中展现出潜力,甚至在某些子场景得分较低的情况下仍能取得进展,凸显了引导性探索和偶然性在科学发现中的重要作用。该SDE框架为面向科学发现能力的LLM评估提供了可复现的基准,并指明了推动其向科学发现目标发展的切实可行路径。
  • 作者讲解
  • 图表
  • 解决问题
    现有的科学评估基准主要测试孤立的科学知识,忽略了科学发现中关键的迭代推理、假设生成和观察解释等过程。因此,当前缺乏能够真实反映大语言模型(LLM)在实际科研项目中支持科学发现能力的评估框架。该论文试图解决如何更真实、系统地评估LLM在多学科科学研究中的实用性这一问题,并验证现有LLM是否真正具备推动科学发现的能力。
  • 关键思路
    提出一种情境嵌入式的两阶段科学发现评估(Scientific Discovery Evaluation, SDE)框架:第一阶段评估模型在与研究场景绑定的具体问题上的准确性;第二阶段评估模型在整个科研项目层面的能力,包括提出可检验假设、设计实验或模拟、以及解释结果。该方法由领域专家定义真实科研项目并分解为模块化研究场景,确保评估贴近实际科研流程,突破了传统静态知识问答式测评的局限。
  • 其它亮点
    实验设计严谨,覆盖生物学、化学、材料学和物理学四个领域,问题由领域专家构建并审核,保证了内容的真实性与挑战性。结果显示:当前最先进的LLM在SDE框架下表现显著低于通用科学基准,模型规模扩大和推理优化带来的性能提升趋于饱和,且不同厂商的顶级模型表现出相似的系统性缺陷。有趣的是,即使在单个场景得分较低的情况下,某些模型仍能在完整项目中展现出探索性和偶然发现潜力,表明引导式探索在科学发现中的价值。目前尚未提及代码开源,但该框架具有高度可复现性,为后续LLM面向科学发现的发展提供了清晰路径。
  • 相关研究
    1. ‘SciBERT: A Pretrained Language Model for Scientific Text’ 2. ‘Evaluating Large Language Models on Scientific Question Answering’ 3. ‘Can AI Solve Science? Benchmarking LLMs on Real-World Research Tasks’ 4. ‘The Role of Large Language Models in Hypothesis Generation’ 5. ‘Benchmarking Foundation Models in Scientific Discovery: From Knowledge to Reasoning’
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问