Watermarking Makes Language Models Radioactive

2024年02月22日
  • 简介
    本文研究了LLM生成文本的放射性,即是否可能检测出这种输入被用作训练数据。传统的方法,如成员推断,可以以一定的准确度进行这种检测。我们展示了水印训练数据比成员推断更容易检测到痕迹,而且更可靠。我们将污染水平与水印鲁棒性、其在训练集中的比例以及微调过程联系起来。值得注意的是,我们特别证明了即使只有5%的训练文本被加上了水印,也可以高度自信地检测出在水印合成指令上的训练(p值小于1e-5)。因此,LLM水印技术,最初是为了检测机器生成的文本而设计的,现在可以轻松地识别出是否使用了带有水印的LLM的输出来微调另一个LLM。
  • 图表
  • 解决问题
    本文旨在研究LLM生成的文本的放射性,即是否可能检测到使用此类输入作为训练数据。这是否是一个新问题?
  • 关键思路
    本文提出使用水印技术来检测训练数据,其可靠性比成员推断等传统方法更高。作者将污染水平与水印鲁棒性、在训练集中的比例和微调过程联系起来。实验表明,即使只有5%的训练文本被水印标记,使用水印的合成指令进行训练也可以高置信度地检测到(p值<1e-5)。因此,LLM水印技术不仅可用于检测机器生成的文本,还可以轻松识别是否使用了水印标记的LLM的输出来微调另一个LLM。
  • 其它亮点
    本文的亮点包括使用水印技术来检测训练数据,提高了检测的可靠性;实验结果表明,即使只有5%的训练文本被水印标记,使用水印的合成指令进行训练也可以高置信度地检测到;本文提出的方法可以用于识别是否使用了水印标记的LLM的输出来微调另一个LLM。
  • 相关研究
    在这个领域中,最近的相关研究包括成员推断等传统方法来检测训练数据。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论