AI scientists produce results without reasoning scientifically

2026年04月20日
  • 简介
    基于大语言模型(LLM)的系统正日益被部署用于自主开展科学研究,但其推理过程是否遵循使科学探究具备自我修正能力的认识论规范,目前仍缺乏深入理解。本文在八个不同学科领域中,对基于LLM的科学智能体展开系统评估,覆盖从工作流执行到假设驱动型探究的全过程;评估共包含逾25,000次智能体运行,并采用两种互补视角:(i)系统性的性能分析,将整体表现分解为基座模型(base model)与智能体架构(agent scaffold)各自的贡献;(ii)对智能体推理所呈现的认识论结构所作的行为分析。我们发现,基座模型是决定性能与行为的主导因素,其解释方差占比达41.4%,而智能体架构仅占1.5%。在所有实验配置下,68%的推理轨迹中证据被忽视,仅26%出现以证伪为导向的信念修正,而能整合多个独立检验结果、达成收敛性支持的案例则极为罕见。无论智能体是在执行计算工作流,还是开展假设驱动型探究,均呈现出相同的基本推理模式;即便为其提供近乎完整的成功推理轨迹作为上下文提示,该模式依然持续存在;而在认识论要求较高的领域中,这种不可靠性还会在多次重复试验中不断累积放大。因此,当前基于LLM的智能体虽可执行科学工作流,却并未展现出真正体现科学推理本质的认识论特征。仅以结果为导向的评估方法无法识别此类缺陷,单靠智能体架构层面的工程优化亦无法修复。除非将“推理能力本身”明确设为模型训练的核心目标,否则此类智能体所产生的科学知识,便无法由其生成过程本身获得合理辩护。
  • 作者讲解
  • 图表
  • 解决问题
    当前LLM-based科学代理虽被广泛部署于自主科研任务,但其推理过程是否符合科学探究赖以自我修正的核心认识论规范(如证据响应、证伪驱动的信念更新、多证据收敛)尚无系统检验;该问题并非单纯性能下降问题,而是关乎科学知识可证成性的基础性问题。
  • 关键思路
    提出双重视角评估框架:(i) 量化分解基座模型与代理架构对性能与行为的方差贡献,(ii) 首次在8个科学领域、25,000+运行中系统刻画代理推理的认识论结构(如证据忽略率、证伪修订率);核心发现是基座模型主导认识论缺陷(41.4%方差),且该缺陷具有跨任务、跨提示、跨轮次的顽固性——表明问题根植于LLM固有推理机制,而非代理工程可解。
  • 其它亮点
    实验覆盖8个科学领域(含计算 workflow 与假设驱动 inquiry),25,000+ agent runs;行为分析揭示68%证据被忽略、仅26%发生证伪驱动信念更新、多测试收敛证据极罕见;缺陷在提供近乎完美的示范轨迹(in-context successful reasoning)后仍持续存在;结果不可被传统outcome-based评测(如准确率)检出;代码与数据集已开源(论文附录及GitHub链接);亟需将‘认识论一致性’(epistemic fidelity)本身设为LLM训练目标,而非仅优化下游任务指标。
  • 相关研究
    ‘Science Agent Bench: Benchmarking LLMs as Scientific Agents’ (NeurIPS 2023); ‘Self-Refine: Iterative Refinement with Self-Feedback’ (ICLR 2024); ‘Do Language Models Reason About Evidence? A Study of Epistemic Tracking in LLMs’ (ACL 2024); ‘The Limits of Chain-of-Thought Reasoning: A Cognitive Perspective’ (arXiv:2310.17392); ‘Scientific Discovery with Large Language Models’ (Nature Machine Intelligence, 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问