AI scientists produce results without reasoning scientifically

向作者提问

NEW

简介

基于大语言模型（LLM）的系统正日益被部署用于自主开展科学研究，但其推理过程是否遵循使科学探究具备自我修正能力的认识论规范，目前仍缺乏深入理解。本文在八个不同学科领域中，对基于LLM的科学智能体展开系统评估，覆盖从工作流执行到假设驱动型探究的全过程；评估共包含逾25,000次智能体运行，并采用两种互补视角：（i）系统性的性能分析，将整体表现分解为基座模型（base model）与智能体架构（agent scaffold）各自的贡献；（ii）对智能体推理所呈现的认识论结构所作的行为分析。我们发现，基座模型是决定性能与行为的主导因素，其解释方差占比达41.4%，而智能体架构仅占1.5%。在所有实验配置下，68%的推理轨迹中证据被忽视，仅26%出现以证伪为导向的信念修正，而能整合多个独立检验结果、达成收敛性支持的案例则极为罕见。无论智能体是在执行计算工作流，还是开展假设驱动型探究，均呈现出相同的基本推理模式；即便为其提供近乎完整的成功推理轨迹作为上下文提示，该模式依然持续存在；而在认识论要求较高的领域中，这种不可靠性还会在多次重复试验中不断累积放大。因此，当前基于LLM的智能体虽可执行科学工作流，却并未展现出真正体现科学推理本质的认识论特征。仅以结果为导向的评估方法无法识别此类缺陷，单靠智能体架构层面的工程优化亦无法修复。除非将“推理能力本身”明确设为模型训练的核心目标，否则此类智能体所产生的科学知识，便无法由其生成过程本身获得合理辩护。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

当前LLM-based科学代理虽被广泛部署于自主科研任务，但其推理过程是否符合科学探究赖以自我修正的核心认识论规范（如证据响应、证伪驱动的信念更新、多证据收敛）尚无系统检验；该问题并非单纯性能下降问题，而是关乎科学知识可证成性的基础性问题。
关键思路

提出双重视角评估框架：(i) 量化分解基座模型与代理架构对性能与行为的方差贡献，(ii) 首次在8个科学领域、25,000+运行中系统刻画代理推理的认识论结构（如证据忽略率、证伪修订率）；核心发现是基座模型主导认识论缺陷（41.4%方差），且该缺陷具有跨任务、跨提示、跨轮次的顽固性——表明问题根植于LLM固有推理机制，而非代理工程可解。
其它亮点

实验覆盖8个科学领域（含计算 workflow 与假设驱动 inquiry），25,000+ agent runs；行为分析揭示68%证据被忽略、仅26%发生证伪驱动信念更新、多测试收敛证据极罕见；缺陷在提供近乎完美的示范轨迹（in-context successful reasoning）后仍持续存在；结果不可被传统outcome-based评测（如准确率）检出；代码与数据集已开源（论文附录及GitHub链接）；亟需将‘认识论一致性’（epistemic fidelity）本身设为LLM训练目标，而非仅优化下游任务指标。
相关研究

‘Science Agent Bench: Benchmarking LLMs as Scientific Agents’ (NeurIPS 2023); ‘Self-Refine: Iterative Refinement with Self-Feedback’ (ICLR 2024); ‘Do Language Models Reason About Evidence? A Study of Epistemic Tracking in LLMs’ (ACL 2024); ‘The Limits of Chain-of-Thought Reasoning: A Cognitive Perspective’ (arXiv:2310.17392); ‘Scientific Discovery with Large Language Models’ (Nature Machine Intelligence, 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问