Whodunit: Classifying Code as Human Authored or GPT-4 Generated -- A case study on CodeChef problems

向作者提问

NEW

简介

人工智能（AI）助手，例如GitHub Copilot和ChatGPT，基于像GPT-4这样的大型语言模型，正在革新编程任务的执行方式，引发了是否由生成式AI模型编写代码的问题。这些问题特别引起教育工作者的关注，他们担心这些工具会启用一种新形式的学术不诚实，即学生提交AI生成的代码作为自己的作品。我们的研究探讨了使用代码风格学和机器学习来区分GPT-4生成和人工编写的代码的可行性。我们的数据集包括来自CodeChef的人工编写解决方案和由GPT-4生成的AI编写的解决方案。我们的分类器表现优异，具有0.91的F1分数和AUC-ROC分数。我们的分类器的一个变体排除了可操纵的特征（例如空行、空格），仍然具有良好的F1分数和AUC-ROC分数，达到了0.89。我们还评估了我们的分类器与编程问题的难度相关的表现，并发现在更简单和中等的问题上几乎没有区别，而在更难的问题上分类器的表现略有下降。我们的研究表明，代码风格学是区分GPT-4生成代码和人工编写代码的一种有前途的方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在探讨使用代码风格学和机器学习来区分人工编写的代码和GPT-4生成的代码的可行性，以解决教育工作者担心学生使用AI生成的代码作为自己的作品的问题。
关键思路

论文的关键思路是使用代码风格学和机器学习来识别GPT-4生成的代码和人工编写的代码之间的差异。作者使用CodeChef的数据集来训练和测试他们的分类器，并发现这种方法非常有效。
其它亮点

论文使用了CodeChef的数据集来训练和测试他们的分类器，并发现这种方法非常有效，其F1分数和AUC-ROC分数均为0.91。作者还测试了分类器在不同难度的编程问题上的表现，发现分类器在容易和中等难度的问题上表现相似，在较难的问题上略微劣于表现。作者的研究表明，代码风格学是区分GPT-4生成的代码和人工编写的代码的一种有前途的方法。
相关研究

最近的相关研究包括使用语法分析和深度学习来识别GPT-4生成的代码和人工编写的代码之间的差异。例如，一篇题为“GPT-2和GPT-3生成的代码的语法分析”的论文。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问