DUPE: Detection Undermining via Prompt Engineering for Deepfake Text

简介

随着大型语言模型（LLMs）越来越普遍，人工智能文本与人类文本之间的区分引起了人们的担忧。这些模型的不断增强特别让教师感到担忧，他们可能担心学生会使用LLMs来写作业。面对这种他们不熟悉的技术，教师可能会求助于公开可用的人工智能文本检测器。然而，许多检测器的准确性尚未得到彻底验证，这可能会对被错误指控为学术不诚实的学生造成潜在伤害。在本文中，我们评估了三种不同的人工智能文本检测器-Kirchenbauer等人的数字水印、ZeroGPT和GPTZero-并将它们与人类和人工智能生成的文章进行比较。我们发现，数字水印导致高误报率，而ZeroGPT既有高误报率又有高漏报率。此外，我们使用ChatGPT 3.5对原始的人工智能生成的文本进行了改写，从而有效地绕过了所有检测器，并显著提高了所有检测器的漏报率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估三种AI文本检测器对人工和AI生成的论文的准确性，以解决教师担心学生使用LLMs抄袭的问题。
关键思路

论文评估了三种AI文本检测器的性能，并发现它们在检测AI生成的文本时存在高误报和漏报的问题。此外，使用ChatGPT 3.5对原始AI生成的文本进行改写，可以有效地绕过检测器。
其它亮点

实验使用了人工和AI生成的论文，并评估了三种AI文本检测器的性能。结果表明，水印技术存在高误报率，ZeroGPT存在高误报和漏报率。使用ChatGPT 3.5对原始AI生成的文本进行改写，可以有效地绕过检测器。论文的实验数据和代码已经开源。
相关研究

最近的相关研究包括使用LLMs生成文本的研究，以及评估AI文本检测器性能的研究。例如，"The GPT-2 Rollout, Detection, and Responsible Publication"和"Unsupervised Paraphrasing without Translation"。

DUPE: Detection Undermining via Prompt Engineering for Deepfake Text

提问交流

提问交流