Your Large Language Models Are Leaving Fingerprints

2024年05月22日
  • 简介
    已经有研究表明,在某些情况下,经过微调的变压器和其他监督式检测器可以有效地区分人类生成的文本和机器生成的文本,但我们发现,即使是基于n-gram和词性特征的简单分类器也可以在内部和外部数据上实现非常稳健的性能。为了理解这是如何可能的,我们分析了五个数据集中的机器生成文本,发现LLM具有独特的指纹,表现为某些词汇和形态句法特征的频率略有不同。我们展示了如何可视化这些指纹,描述了它们如何用于检测机器生成的文本,并发现它们甚至在不同的文本领域中都很稳健。我们发现,指纹通常在同一模型系列中的模型之间是持久存在的(例如llama-13b vs. llama-65b),而为聊天微调的模型比标准语言模型更容易检测,这表明LLM指纹可能是由训练数据直接引起的。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在探讨如何检测机器生成的文本,以及这些文本与人类生成的文本之间的差异。
  • 关键思路
    通过分析机器生成文本中的语言特征,例如词汇和形态句法特征,可以检测机器生成的文本,并且这些特征在不同的数据集中仍然具有鲁棒性。
  • 其它亮点
    论文发现,即使是简单的分类器也可以在不同的数据集上实现鲁棒的性能。此外,LLMs具有独特的指纹,可以通过可视化这些指纹来检测机器生成的文本。论文还发现,这些指纹通常在同一模型系列中的不同模型之间是持久的,而针对聊天进行微调的模型比标准语言模型更容易检测。
  • 相关研究
    最近的相关研究主要集中在使用深度学习模型来生成文本,例如GAN和transformer。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问