- 简介随着人工智能能力的不断提升,AI审稿人已开始在科学同行评议中投入使用,但其实际能力与公信力仍存争议:许多科学家仅将其视为缺乏专业研究评判能力的概率性系统;而另一些研究者则对其就绪程度持更为乐观的态度,却缺乏确凿证据支持。因此,厘清AI审稿人擅长之处、短板所在以及尚待解决的挑战,显得尤为关键。然而,当前针对AI审稿人的评估大多聚焦于其评审结论是否与人类评审结论一致(例如评分一致性、录用预测准确性),这种做法不足以全面刻画其真实能力边界与局限性。本文通过一项大规模专家标注研究弥补了这一空白:来自物理、生物与健康科学领域的45位领域专家,耗时469小时,对82篇《自然》(Nature)系列期刊论文的人类撰写审稿意见与AI生成审稿意见中总计2960条具体批评意见(每条意见均针对论文某一特定方面)进行了评估,从“正确性”“重要性”和“证据充分性”三个维度逐一打分。综合三项维度的整体表现来看,基于GPT-5.2构建的审稿智能体得分(60.0%)显著高于各篇论文中评分最高的人类审稿人(48.2%,p = 0.009);而全部三款AI审稿系统(包括Gemini 3.0 Pro与Claude Opus 4.5)在每一项维度上均优于各篇论文中评分最低的人类审稿人。此外,AI审稿人提出的准确批评意见,也更常被专家评定为具有较高重要性且证据更为充分;同时,它们还揭示了人类审稿人未曾指出的、占比达26%的独特问题。但另一方面,AI审稿人之间的意见重合度远高于人类审稿人之间(跨审稿人配对重合率为21%,而人类配对仅为3%),且暴露出16类人类审稿人所不具备的反复出现的弱点,例如子领域专业知识有限、难以在多文件场景下有效管理长程上下文,以及对细微问题过度苛责等。总体而言,本研究结果表明:当前的AI审稿人应被定位为人类审稿人的有益补充,而非替代者。
-
- 图表
- 解决问题现有AI评审员评估方法仅关注其 verdicts(如接受/拒绝预测)与人类评审的一致性,无法深入刻画AI在科学同行评审中真实的能力维度(如正确性、重要性、证据充分性)及其系统性优缺点;论文旨在通过专家驱动的细粒度标注,首次实证揭示AI评审员在多学科科研评审中的能力边界、互补价值与固有缺陷。
- 关键思路摒弃‘人机一致性’这一代理指标,转而采用由45位领域科学家对2960条细粒度批评(每条聚焦论文一个具体方面)进行三维度(correctness, significance, sufficiency of evidence)独立标注的大规模专家评估范式;首次将AI评审能力解耦为可测量的认知维度,并基于此进行跨模型、跨人类的公平比较。
- 其它亮点实验设计严谨:覆盖82篇Nature-family期刊论文,涵盖物理、生物、健康三大科学领域;45位活跃领域科学家累计投入469小时完成标注;引入‘批评粒度’(criticism-level)而非论文级评价,实现高分辨率能力分析;发现GPT-5.2在复合评分上显著超越单个顶级人类评审员(60.0% vs. 48.2%, p=0.009);AI提出26%人类未覆盖的独特问题,但重叠率高达21%(vs. 人类3%),并暴露16类结构性弱点(如子领域知识盲区、多文件长上下文失效、过度苛责技术细节);论文未提及开源代码,但数据标注协议与统计框架具强可复现性;未来方向包括构建‘人机协同评审协议’、开发子领域自适应微调框架、建立AI评审可信度动态校准机制。
- ‘AI in Peer Review: A Systematic Assessment of LLMs as Scientific Reviewers’ (NeurIPS 2023); ‘Can Large Language Models Replace Human Reviewers? Evidence from a Blinded Study in Computer Science’ (ACL 2024); ‘PeerRead: A Corpus of Paper Reviews and Academic Paper Metadata’ (EMNLP 2018); ‘SciReview: Benchmarking Scientific Review Generation with Expert-Annotated Ground Truth’ (ICLR 2024 Workshop); ‘The Limits of AI-Assisted Review: Bias, Context Collapse, and Epistemic Authority’ (Nature Machine Intelligence, 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流