Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Generated Text Detection

简介

先进的大型语言模型（LLMs）可以生成几乎与人类写作无法区分的文本，这突显了检测LLM生成文本的重要性。然而，当前的零样本技术面临挑战，因为白盒方法仅限于使用较弱的开源LLM，而黑盒方法则受到来自更强的专有LLM的部分观察限制。似乎不可能使白盒方法使用专有模型，因为对这些模型的API级访问既不提供完整的预测分布，也不提供内部嵌入。为了跨越这一鸿沟，我们提出了Glimpse，一种概率分布估计方法，可以从部分观察中预测完整的分布。尽管Glimpse方法简单，但我们成功地将熵、秩、对数秩和Fast-DetectGPT等白盒方法扩展到了最新的专有模型。实验表明，结合Fast-DetectGPT和GPT-3.5的Glimpse在五个最新源模型中的平均AUROC约为0.95，相对于开源基线的剩余空间，得分提高了51%（表1）。这表明最新的LLM能够有效检测自己的输出，暗示先进的LLM可能是对抗自身的最佳盾牌。
作者讲解·1
- 讲解视频(1)
- 相关报道
图表
解决问题

该论文试图解决当前零样本技术在检测大型语言模型（LLM）生成文本时面临的挑战，特别是白盒方法受限于较弱的开源LLM，而黑盒方法受限于对较强专有LLM的部分观察。
关键思路

论文提出了一种名为Glimpse的概率分布估计方法，通过从部分观察预测完整的分布，从而扩展了白盒方法如Entropy、Rank、Log-Rank和Fast-DetectGPT到最新的专有模型。这一方法克服了API级访问无法提供完整预测分布和内部嵌入的问题。
其它亮点

实验结果显示，Glimpse与Fast-DetectGPT和GPT-3.5结合使用时，在五个最新的源模型上平均AUROC达到了约0.95，相对于开源基线提高了51%。此外，研究发现最先进的LLM能够有效地检测自己的输出，表明高级LLM可能是对抗自身生成内容的最佳防御手段。论文提供了详细的实验设计和数据集信息，但未提及代码是否开源。
相关研究

近期在这个领域中的相关研究包括：1. 'Detecting AI-Generated Text: A Comprehensive Survey' - 综述了现有的AI生成文本检测方法。2. 'Zero-Shot Detection of Machine-Generated Text' - 探讨了零样本检测技术。3. 'White-Box vs Black-Box Methods for Detecting AI-Generated Text' - 比较了白盒和黑盒方法的优劣。

Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Generated Text Detection

提问交流

提问交流