GenAI Detection Tools, Adversarial Techniques and Implications for Inclusivity in Higher Education

简介

本研究探究了六种主要的生成式人工智能（GenAI）文本检测器在面对经过修改以逃避检测的机器生成内容时的有效性（n=805）。结果表明，这些检测器的准确率已经很低（39.5%），当面对经过修改的内容时，准确率会进一步降低（17.4%），而一些技术在逃避检测方面比其他技术更有效。准确率的限制和可能的错误指控表明，这些工具目前不能用于确定是否存在学术诚信的违规行为，强调了教育工作者在维护包容和公平的评估实践方面面临的挑战。然而，在非惩罚性的情况下使用时，它们可能在支持学生学习和维护学术诚信方面发挥作用。这些结果强调了在学术界应对GenAI所带来的挑战，促进这些新兴技术的负责任和公平使用需要综合考虑。研究得出结论，当前AI文本检测器的局限性要求对任何可能的高等教育实施采取批判性的方法，并突出了替代AI评估策略的可能性。
图表
解决问题

本文研究六种主要的生成式人工智能文本检测器在面对经过修改的机器生成内容时的准确性，以及这些工具在确定学术诚信是否被侵犯方面的局限性。
关键思路

本文通过实验发现，生成式人工智能文本检测器的准确性在面对经过修改的内容时会大幅降低，因此这些工具目前不能用于确定学术诚信是否被侵犯。然而，它们可以在非惩罚性的情况下用于支持学生学习和维护学术诚信。
其它亮点

本文实验设计了805个经过修改的机器生成内容，并使用了六种主要的生成式人工智能文本检测器进行测试。结果表明，这些工具的准确性已经很低（39.5%），而在面对修改后的内容时，准确性降低了17.4%。本文提出了对于解决生成式人工智能在学术中的挑战，需要采用综合的方法来促进这些新兴技术的负责任和公平使用。
相关研究

在这个领域中，最近的一些相关研究包括《Deep Learning for Plagiarism Detection in Natural Language Text》和《A Review of Automated Essay Scoring and Natural Language Processing》等。

GenAI Detection Tools, Adversarial Techniques and Implications for Inclusivity in Higher Education

评论