Whodunit: Classifying Code as Human Authored or GPT-4 Generated -- A case study on CodeChef problems

2024年03月06日
  • 简介
    人工智能(AI)助手,例如GitHub Copilot和ChatGPT,基于像GPT-4这样的大型语言模型,正在革新编程任务的执行方式,引发了是否由生成式AI模型编写代码的问题。这些问题特别引起教育工作者的关注,他们担心这些工具会启用一种新形式的学术不诚实,即学生提交AI生成的代码作为自己的作品。我们的研究探讨了使用代码风格学和机器学习来区分GPT-4生成和人工编写的代码的可行性。我们的数据集包括来自CodeChef的人工编写解决方案和由GPT-4生成的AI编写的解决方案。我们的分类器表现优异,具有0.91的F1分数和AUC-ROC分数。我们的分类器的一个变体排除了可操纵的特征(例如空行、空格),仍然具有良好的F1分数和AUC-ROC分数,达到了0.89。我们还评估了我们的分类器与编程问题的难度相关的表现,并发现在更简单和中等的问题上几乎没有区别,而在更难的问题上分类器的表现略有下降。我们的研究表明,代码风格学是区分GPT-4生成代码和人工编写代码的一种有前途的方法。
  • 图表
  • 解决问题
    论文旨在探讨使用代码风格学和机器学习来区分人工编写的代码和GPT-4生成的代码的可行性,以解决教育工作者担心学生使用AI生成的代码作为自己的作品的问题。
  • 关键思路
    论文的关键思路是使用代码风格学和机器学习来识别GPT-4生成的代码和人工编写的代码之间的差异。作者使用CodeChef的数据集来训练和测试他们的分类器,并发现这种方法非常有效。
  • 其它亮点
    论文使用了CodeChef的数据集来训练和测试他们的分类器,并发现这种方法非常有效,其F1分数和AUC-ROC分数均为0.91。作者还测试了分类器在不同难度的编程问题上的表现,发现分类器在容易和中等难度的问题上表现相似,在较难的问题上略微劣于表现。作者的研究表明,代码风格学是区分GPT-4生成的代码和人工编写的代码的一种有前途的方法。
  • 相关研究
    最近的相关研究包括使用语法分析和深度学习来识别GPT-4生成的代码和人工编写的代码之间的差异。例如,一篇题为“GPT-2和GPT-3生成的代码的语法分析”的论文。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论