- 简介能否可靠地评估同行评审的质量?我们研究这个问题的动机有两个主要方面——通过评估评审的质量来激励高质量的评审和测量评审质量在实验中的变化。我们在机器学习领域的顶级会议NeurIPS 2022上进行了一项大规模研究,邀请(meta)-reviewers和作者评估提交论文的评审。首先,我们进行了一项RCT实验,以检查评审长度所导致的偏见。我们通过添加大量的非信息性内容生成了评审的延长版本。对照组参与者评估原始评审,而实验组参与者评估人工延长的版本。我们发现,延长的评审的质量得分比原始评审高(统计学上显著)。此外,在观察性数据分析中,我们发现作者对推荐接受自己论文的评审存在积极偏见,即使控制了评审长度、质量和作者论文数量的混淆因素后仍然存在。我们还测量了同一份评审的多次评估之间的不一致率为28%-32%,与NeurIPS的论文评审者相当。此外,我们使用质量得分的线性模型评估评审者的评审错误率,并发现它与NeurIPS的论文评审者的评审错误率估计相似。最后,我们评估了在将个别标准映射到评审质量总分的主观意见周围存在的变异量,并发现它与论文评审中的变异量大致相同。我们的结果表明,存在于论文评审中的各种问题——不一致性、对不相关因素的偏见、评价错误、主观性——也会出现在评审评审中。
- 图表
- 解决问题论文旨在评估同行评审的质量是否可靠,并探讨评估质量对高质量评审的激励效果以及评审质量的变化测量的影响。
- 关键思路论文通过在NeurIPS 2022会议上进行大规模研究,邀请(meta)-reviewers和作者评估提交论文的评审,对同行评审的质量进行评估。通过RCT实验,发现评审长度对评审质量的偏见,同时作者对建议接受自己论文的评审存在正面偏见。此外,论文还对评审质量的不一致性、偏见、误校准和主观性等问题进行了评估。
- 其它亮点论文使用了大量的实验数据来评估同行评审的质量,发现评审质量存在多种问题,这些问题也存在于论文的评审中。此外,论文还发现评审长度会对评审质量产生偏见,作者对建议接受自己论文的评审存在正面偏见,评审质量的不一致性、偏见、误校准和主观性等问题也存在于评审中。这些问题的存在对论文的评审和发表产生了重要影响。
- 最近在这个领域中,还有一些相关的研究被进行。例如,"Measuring the Quality of Peer Review: A Systematic Review","The Peer Reviewers' Openness Initiative: Incentivizing Open Research Practices Through Peer Review"等。


提问交流