- 简介本文中,我们开发了针对人类文本和常见任务的LLM的AIGT检测器。尽管有许多合理的提示选择,但这些数据集通常只使用有限数量的提示进行构建。提示变化的缺乏可能会引入特定于提示的快捷功能,这些功能存在于使用所选提示收集的数据中,但不适用于其他提示。在本文中,我们分析了这些快捷方式对AIGT检测的影响。我们提出了基于反馈的对抗性指令列表优化(FAILOpt)攻击,该攻击搜索对AIGT检测器具有欺骗性的指令,利用特定于提示的快捷方式。FAILOpt有效地降低了目标检测器的检测性能,与基于对抗上下文示例的其他攻击相当。我们还利用我们的方法来增强检测器的鲁棒性,以减轻这些快捷方式。根据研究结果,我们进一步使用FAILOpt提示增强数据集训练分类器。增强的分类器在生成模型、任务和攻击方面都表现出了改进。我们的代码将在https://github.com/zxcvvxcz/FAILOpt上提供。
- 图表
- 解决问题本文旨在分析AIGT检测中可能存在的prompt-specific shortcut features对检测器的影响,并提出一种基于反馈的对抗指令列表优化(FAILOpt)攻击方法,用于寻找欺骗AIGT检测器的指令。同时,本文也利用该方法来提高检测器的鲁棒性。
- 关键思路本文提出了一种基于反馈的对抗指令列表优化(FAILOpt)攻击方法,用于寻找欺骗AIGT检测器的指令,并利用该方法提高检测器的鲁棒性。
- 其它亮点实验结果表明,FAILOpt攻击可以有效地降低目标检测器的检测性能,并且使用FAILOpt prompt增强的分类器表现出跨生成模型、任务和攻击的改进。本文的代码将在https://github.com/zxcvvxcz/FAILOpt上公开。
- 近期的相关研究包括:Adversarial Attacks and Defenses in Natural Language Processing、TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP等。
沙发等你来抢
去评论
评论
沙发等你来抢