RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors

2024年05月13日
  • 简介
    许多商业和开源模型声称可以非常准确地检测出机器生成的文本(准确率达到99%或更高)。然而,很少有这些检测器在共享基准数据集上进行评估,即使进行评估,使用的数据集也缺乏挑战性,缺乏采样策略的变化、对抗攻击和开源生成模型。在这项工作中,我们提出了RAID:机器生成文本检测最大且最具挑战性的基准数据集。RAID包括超过600万个生成实例,涵盖11个模型、8个领域、11种对抗攻击和4种解码策略。使用RAID,我们评估了8个开源和4个闭源检测器的领域外和对抗鲁棒性,并发现当前的检测器很容易被对抗攻击、采样策略的变化、重复惩罚和未知生成模型所欺骗。我们发布了我们的数据集和工具,以鼓励进一步探索检测器的鲁棒性。
  • 图表
  • 解决问题
    本论文旨在解决机器生成文本检测的问题,提出了一个最大、最具挑战性的基准数据集RAID,用于评估检测器的鲁棒性。
  • 关键思路
    通过RAID数据集,评估了8个开源和4个闭源检测器的领域外和对抗鲁棒性,并发现当前的检测器很容易被对抗性攻击、采样策略变化、重复惩罚和未知生成模型所欺骗。
  • 其它亮点
    RAID数据集包含超过6百万个生成文本,涵盖11个模型、8个领域、11个对抗攻击和4种解码策略。实验结果表明,当前的检测器容易被对抗性攻击欺骗,并且对于采样策略变化、重复惩罚和未知生成模型也不够鲁棒。作者已经公开了数据集和工具,以鼓励更多的探索。
  • 相关研究
    近期的相关研究包括:《Adversarial Attacks Against Automatic Speech Recognition Systems: A Survey》、《Adversarial Attacks and Defenses in Images, Graphs and Text: A Review》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论