来自今天的爱可可AI前沿推介

[CL] DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

E Mitchell, Y Lee, A Khazatsky, C D. Manning, C Finn
[Stanford University]

DetectGPT: 基于概率曲率的零样本机器生成文本检测

要点:

  1. 基于从LLM采样的文本往往占据模型对数概率函数的负曲率区域的观察,提出了一种新的基于曲率的标准来判断段落是否来自语言模型(LLM)生成;
  2. DetectGPT 是一种实用算法,仅使用由另一个通用预训练语言模型(例如T5)的兴趣模型和随机扰动的对数概率,不需要训练单独的分类器,收集真实或生成的段落数据集,或显式对生成的文本加水;
  3. 证明DetectGPT比现有的模型样本检测零样本方法更具区分性,特别是将 20B 参数 GPT-NeoX 生成的假新闻文章的检测率从最强零样本基线的 0.81 AUROC 提高到 DetectGPT 的0.95 AUROC。

一句话总结:
提出 DetectGPT,基于从语言模型(LLM)采样的文本倾向于占据模型对数概率函数的负曲率区域的零样本机器生成文本检测方法,使 GPT-NeoX 生成的假新闻的检测从 0.81 AUROC 提高到 0.95 AUROC,而无需单独的分类器或数据集。

摘要:
大型语言模型(LLM)的流畅性和事实知识使得相应的系统更需要检测一段文本是否是机器写的。例如,学生可能会使用LLM来完成书面作业,使教员无法准确评估学生的学习。本文首先证明,从LLM中取样的文本。往往占据模型的对数概率函数的负曲率区域。利用这一观察结果,本文定义了一个新的基于曲率的标准,来判断一个段落是否是由一个给定的LLM生成的。该方法称为 DetectGPT,不需要训练单独的分类器,不需要收集真实或生成的段落的数据集,也不需要显式地对生成的文本加水印。只使用感兴趣的模型计算的对数概率和另一个通用的预训练语言模型(如T5)的段落的随机扰动。本文发现DetectGPT 在模型样本检测方面比现有的零样本方法更具鉴别力,特别是提高了对 20B 参数 GPT-NeoX 生成的假新闻文章的检测,从最强的零样本基线的 0.81 AUROC 提高到 DetectGPT 的0.95 AUROC。

The fluency and factual knowledge of large language models (LLMs) heightens the need for corresponding systems to detect whether a piece of text is machine-written. For example, students may use LLMs to complete written assignments, leaving instructors unable to accurately assess student learning. In this paper, we first demonstrate that text sampled from an LLM tends to occupy negative curvature regions of the model's log probability function. Leveraging this observation, we then define a new curvature-based criterion for judging if a passage is generated from a given LLM. This approach, which we call DetectGPT, does not require training a separate classifier, collecting a dataset of real or generated passages, or explicitly watermarking generated text. It uses only log probabilities computed by the model of interest and random perturbations of the passage from another generic pre-trained language model (e.g, T5). We find DetectGPT is more discriminative than existing zero-shot methods for model sample detection, notably improving detection of fake news articles generated by 20B parameter GPT-NeoX from 0.81 AUROC for the strongest zero-shot baseline to 0.95 AUROC for DetectGPT. See this https URL for code, data, and other project information.

论文链接:https://arxiv.org/abs/2301.11305
图片
图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除