Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

简介

我们提出了一种方法，用于估计大语言模型（LLM）可能会大量修改或生成的大型语料库中文本的比例。我们的最大似然模型利用专家编写和AI生成的参考文本，在语料库级别上准确高效地检查现实世界中LLM使用情况。我们将此方法应用于一个科学同行评审的案例研究，该研究发生在ChatGPT发布之后的人工智能会议上：ICLR 2024、NeurIPS 2023、CoRL 2023和EMNLP 2023。我们的结果表明，提交给这些会议的同行评审文本中，有6.5％至16.9％的文本可能会被LLM大量修改，即超出了拼写检查或小的写作更新。生成文本出现的情况可以提供关于用户行为的见解：在报告较低置信度、接近截止日期提交的评论以及不太可能回应作者反驳的审稿人的评论中，估计的LLM生成文本比例更高。我们还观察到生成文本的语料库级别趋势，这可能在个体级别上太微妙而无法检测，并讨论了这些趋势对同行评审的影响。我们呼吁未来跨学科研究来研究LLM使用如何改变我们的信息和知识实践。
图表
解决问题

估计大语言模型对大型语料库中文本的影响程度
关键思路

使用专家编写和AI生成的参考文本，通过最大似然模型来评估大型语言模型（LLM）对语料库中文本的影响程度，发现在AI会议的同行评审中，6.5％至16.9％的文本可能被LLM大幅修改，而这种修改并非仅限于拼写检查或小的写作更新。
其它亮点

实验使用了ICLR 2024、NeurIPS 2023、CoRL 2023和EMNLP 2023等会议的同行评审数据，发现在一些特定情况下，生成文本的比例更高，例如评审人对论文的信心较低、提交时间靠近截止日期以及不太可能回复作者的评论等。此外，研究还观察到了语料库级别的生成文本趋势，这可能在个体级别上难以察觉。
相关研究

相关研究包括对大型语言模型的使用和对同行评审的研究。

Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

评论