Technical Report on the Checkfor.ai AI-Generated Text Classifier

2024年02月21日
  • 简介
    我们推出了CheckforAI文本分类器,这是一个基于Transformer的神经网络,训练目的是区分由大型语言模型编写的文本和由人类编写的文本。在包括学生写作、创意写作、科学写作、书籍、百科全书、新闻、电子邮件、科学论文、短格式问答等十个文本领域和8个开源和闭源大型语言模型的综合基准测试中,CheckforAI的表现优于零-shot方法(例如DetectGPT)以及领先的商业AI检测工具,误差率低至其九倍以下。我们提出了一种训练算法,即使用合成镜像的硬负样本挖掘,使我们的分类器在评论等高数据领域实现了数量级更低的假阳性率。最后,我们展示了CheckforAI不对非英语母语人士存在偏见,并且在训练期间未曾涉及的领域和模型上具有普适性。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决如何区分人类写作和由大型语言模型生成的文本的问题,同时提高在高数据领域(如评论)中的假阳性率。
  • 关键思路
    论文提出了一个名为CheckforAI的基于Transformer的神经网络分类器,并采用硬负采样和合成镜像的训练算法来提高分类器的准确率和假阳性率。
  • 其它亮点
    CheckforAI在十个文本领域和八个开源和闭源大型语言模型上的综合基准测试中,表现出比DetectGPT和其他商业AI检测工具更低的错误率。论文还表明,CheckforAI不会对非英语母语者产生偏见,并且可以推广到未在训练中出现的领域和模型。
  • 相关研究
    最近的相关研究包括DetectGPT和其他商业AI检测工具,以及基于不同方法的文本分类器,如卷积神经网络和循环神经网络。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问