Are AI-Generated Text Detectors Robust to Adversarial Perturbations?

向作者提问

NEW

简介

本文探讨了大型语言模型（LLMs）的广泛应用引发的对AI生成文本潜在误用的担忧，因为这些模型可以生成与人类生成文本非常相似的内容。目前的AI生成文本（AIGT）检测器对抗性扰动缺乏鲁棒性，即即使字符或单词的微小变化也会导致区分人类创建和AI生成文本的逆转。本文研究了现有AIGT检测方法的鲁棒性，并引入了一种新型检测器——Siamese Calibrated Reconstruction Network（SCRN）。SCRN采用重构网络向文本添加和删除噪声，提取出对局部扰动具有鲁棒性的语义表示。我们还提出了一种连体校准技术，以训练模型在不同噪声下做出同等置信的预测，从而提高模型对抗性扰动的鲁棒性。在四个公开数据集上的实验表明，SCRN优于所有基线方法，在对抗性攻击下相对于最佳基线方法获得了6.5％-18.25％的绝对准确率提高。此外，它在跨领域、跨流派和混合来源场景下表现出卓越的泛化能力。代码可在\url{https://github.com/CarlanLark/Robust-AIGC-Detector}上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决当前大型语言模型生成的文本检测方法鲁棒性不足的问题，提出了一种新的检测器，即Siamese Calibrated Reconstruction Network (SCRN)。
关键思路

SCRN采用重构网络来添加和删除文本噪声，提取对局部扰动鲁棒的语义表示，并提出了一种孪生校准技术来训练模型以在不同噪声下进行同等置信度的预测，从而提高模型对抗扰动的鲁棒性。
其它亮点

实验结果表明，SCRN在四个公开数据集上的表现优于所有基线方法，在对抗攻击下实现了6.5％-18.25％的绝对准确率提高，并在跨领域、跨体裁和混合来源场景下表现出优越的泛化性能。代码已开源。
相关研究

近期的相关研究包括：1. Adversarial Text Detection via Graph Convolutional Networks；2. Adversarial Example Detection in Deep Networks with Convolutional Filter Statistics；3. Adversarial Text Detection with Critical Word Localization；4. Detecting Adversarial Examples via Neural Fingerprinting。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问