Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Generated Text Detection

2024年12月16日
  • 简介
    先进的大型语言模型(LLMs)可以生成几乎与人类写作无法区分的文本,这突显了检测LLM生成文本的重要性。然而,当前的零样本技术面临挑战,因为白盒方法仅限于使用较弱的开源LLM,而黑盒方法则受到来自更强的专有LLM的部分观察限制。似乎不可能使白盒方法使用专有模型,因为对这些模型的API级访问既不提供完整的预测分布,也不提供内部嵌入。为了跨越这一鸿沟,我们提出了Glimpse,一种概率分布估计方法,可以从部分观察中预测完整的分布。尽管Glimpse方法简单,但我们成功地将熵、秩、对数秩和Fast-DetectGPT等白盒方法扩展到了最新的专有模型。实验表明,结合Fast-DetectGPT和GPT-3.5的Glimpse在五个最新源模型中的平均AUROC约为0.95,相对于开源基线的剩余空间,得分提高了51%(表1)。这表明最新的LLM能够有效检测自己的输出,暗示先进的LLM可能是对抗自身的最佳盾牌。
  • 作者讲解·1
  • 图表
  • 解决问题
    该论文试图解决当前零样本技术在检测大型语言模型(LLM)生成文本时面临的挑战,特别是白盒方法受限于较弱的开源LLM,而黑盒方法受限于对较强专有LLM的部分观察。
  • 关键思路
    论文提出了一种名为Glimpse的概率分布估计方法,通过从部分观察预测完整的分布,从而扩展了白盒方法如Entropy、Rank、Log-Rank和Fast-DetectGPT到最新的专有模型。这一方法克服了API级访问无法提供完整预测分布和内部嵌入的问题。
  • 其它亮点
    实验结果显示,Glimpse与Fast-DetectGPT和GPT-3.5结合使用时,在五个最新的源模型上平均AUROC达到了约0.95,相对于开源基线提高了51%。此外,研究发现最先进的LLM能够有效地检测自己的输出,表明高级LLM可能是对抗自身生成内容的最佳防御手段。论文提供了详细的实验设计和数据集信息,但未提及代码是否开源。
  • 相关研究
    近期在这个领域中的相关研究包括:1. 'Detecting AI-Generated Text: A Comprehensive Survey' - 综述了现有的AI生成文本检测方法。2. 'Zero-Shot Detection of Machine-Generated Text' - 探讨了零样本检测技术。3. 'White-Box vs Black-Box Methods for Detecting AI-Generated Text' - 比较了白盒和黑盒方法的优劣。
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问