- 简介随着大型语言模型(LLM)功能的不断提升,负责任和安全使用这些LLM的一大步是能够检测到这些模型生成的文本。虽然监督式人工智能生成的文本检测器在旧的LLM生成的文本上表现良好,但是由于新LLM的频繁发布,构建用于识别这些新模型生成的文本的监督检测器需要新的标记训练数据,这在实践中是不可行的。在这项工作中,我们解决了这个问题,并提出了一个领域通用框架,用于检测来自未知目标生成器的人工智能生成的文本。我们提出的框架EAGLE利用目前可用的来自旧语言模型的标记数据,并学习跨这些生成器不变的特征,以便检测由未知目标生成器生成的文本。EAGLE通过将自监督对比学习的表示能力与领域对抗训练相结合来学习这种领域不变的特征。通过我们的实验,我们展示了EAGLE如何有效地实现检测由未知目标生成器生成的文本的卓越性能,包括最近的最先进的生成器,如GPT-4和Claude,达到了全监督检测器的4.7%之内的检测分数。
- 图表
- 解决问题如何检测新的大型语言模型生成的文本?
- 关键思路提出一种域泛化框架EAGLE,利用自监督对比学习和领域对抗训练来学习跨生成器的不变特征,从而检测未知目标生成器生成的文本。
- 其它亮点实验表明EAGLE在检测未知目标生成器生成的文本方面表现出色,包括最新的GPT-4和Claude,在完全监督检测器的基础上达到4.7%的检测分数。
- 最近的相关研究包括基于监督学习的文本检测方法,以及利用对抗训练和自监督学习的方法来提高模型的鲁棒性。
沙发等你来抢
去评论
评论
沙发等你来抢