NEW

On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

Seungone Kim ,

Dongkeun Yoon ,

Kiril Gashteovski ,

Juyoung Suk ,

Jinheon Baek ,

Pranjal Aggarwal ,

Ian Wu ,

Viktor Zaverkin ,

Spase Petkoski ,

Daniel R. Schrider ,

Ilija Dukovski ,

Francesco Santini ,

Biljana Mitreska ,

Yong Jeong ,

Kyeongha Kwon ,

Young Min Sim ,

Dragana Manasova ,

Arthur Porto ,

Biljana Mojsoska ,

Makoto Takamoto ,

Marko Shuntov ,

Ruoqi Liu ,

Hyunjoo Jenny Lee ,

Niyazi Ulas Dinç ,

Yehhyun Jo ,

Sunkyu Han ,

Chungwoo Lee ,

Huishan Li ,

Esther H. R. Tsai ,

Ergun Simsek ,

Khushboo Shafi ,

Yeonseung Chung ,

Jihye Park ,

Aleksandar Shulevski ,

Henrik Christiansen ,

Yoosang Son ,

Elly Knight ,

Amanda Montoya ,

Jeongyoun Ahn ,

Christian Langkammer ,

Heera Moon ,

Changwon Yoon ,

Nikola Stikov ,

Mooseok Jang ,

Edward Choi ,

Junhan Kim ,

Yeon Sik Jung ,

Woo Youn Kim ,

Jae Kyoung Kim ,

Ishraq Md Anjum ,

Hyun Uk Kim ,

Drew Bridges ,

Carolin Lawrence ,

Xiang Yue ,

Alice Oh ,

Akari Asai ,

Sean Welleck ,

Graham Neubig

热度 192

2026年05月20日

简介

随着人工智能能力的不断提升，AI审稿人已开始在科学同行评议中投入使用，但其实际能力与公信力仍存争议：许多科学家仅将其视为缺乏专业研究评判能力的概率性系统；而另一些研究者则对其就绪程度持更为乐观的态度，却缺乏确凿证据支持。因此，厘清AI审稿人擅长之处、短板所在以及尚待解决的挑战，显得尤为关键。然而，当前针对AI审稿人的评估大多聚焦于其评审结论是否与人类评审结论一致（例如评分一致性、录用预测准确性），这种做法不足以全面刻画其真实能力边界与局限性。本文通过一项大规模专家标注研究弥补了这一空白：来自物理、生物与健康科学领域的45位领域专家，耗时469小时，对82篇《自然》（Nature）系列期刊论文的人类撰写审稿意见与AI生成审稿意见中总计2960条具体批评意见（每条意见均针对论文某一特定方面）进行了评估，从“正确性”“重要性”和“证据充分性”三个维度逐一打分。综合三项维度的整体表现来看，基于GPT-5.2构建的审稿智能体得分（60.0%）显著高于各篇论文中评分最高的人类审稿人（48.2%，p = 0.009）；而全部三款AI审稿系统（包括Gemini 3.0 Pro与Claude Opus 4.5）在每一项维度上均优于各篇论文中评分最低的人类审稿人。此外，AI审稿人提出的准确批评意见，也更常被专家评定为具有较高重要性且证据更为充分；同时，它们还揭示了人类审稿人未曾指出的、占比达26%的独特问题。但另一方面，AI审稿人之间的意见重合度远高于人类审稿人之间（跨审稿人配对重合率为21%，而人类配对仅为3%），且暴露出16类人类审稿人所不具备的反复出现的弱点，例如子领域专业知识有限、难以在多文件场景下有效管理长程上下文，以及对细微问题过度苛责等。总体而言，本研究结果表明：当前的AI审稿人应被定位为人类审稿人的有益补充，而非替代者。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有AI评审员评估方法仅关注其 verdicts（如接受/拒绝预测）与人类评审的一致性，无法深入刻画AI在科学同行评审中真实的能力维度（如正确性、重要性、证据充分性）及其系统性优缺点；论文旨在通过专家驱动的细粒度标注，首次实证揭示AI评审员在多学科科研评审中的能力边界、互补价值与固有缺陷。
关键思路

摒弃‘人机一致性’这一代理指标，转而采用由45位领域科学家对2960条细粒度批评（每条聚焦论文一个具体方面）进行三维度（correctness, significance, sufficiency of evidence）独立标注的大规模专家评估范式；首次将AI评审能力解耦为可测量的认知维度，并基于此进行跨模型、跨人类的公平比较。
其它亮点

实验设计严谨：覆盖82篇Nature-family期刊论文，涵盖物理、生物、健康三大科学领域；45位活跃领域科学家累计投入469小时完成标注；引入‘批评粒度’（criticism-level）而非论文级评价，实现高分辨率能力分析；发现GPT-5.2在复合评分上显著超越单个顶级人类评审员（60.0% vs. 48.2%, p=0.009）；AI提出26%人类未覆盖的独特问题，但重叠率高达21%（vs. 人类3%），并暴露16类结构性弱点（如子领域知识盲区、多文件长上下文失效、过度苛责技术细节）；论文未提及开源代码，但数据标注协议与统计框架具强可复现性；未来方向包括构建‘人机协同评审协议’、开发子领域自适应微调框架、建立AI评审可信度动态校准机制。
相关研究

‘AI in Peer Review: A Systematic Assessment of LLMs as Scientific Reviewers’ (NeurIPS 2023); ‘Can Large Language Models Replace Human Reviewers? Evidence from a Blinded Study in Computer Science’ (ACL 2024); ‘PeerRead: A Corpus of Paper Reviews and Academic Paper Metadata’ (EMNLP 2018); ‘SciReview: Benchmarking Scientific Review Generation with Expert-Annotated Ground Truth’ (ICLR 2024 Workshop); ‘The Limits of AI-Assisted Review: Bias, Context Collapse, and Epistemic Authority’ (Nature Machine Intelligence, 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问