Robust Distortion-free Watermarks for Language Models

Rohith Kuditipudi, John Thickstun, Tatsunori Hashimoto, Percy Liang
[Stanford University]

语言模型的鲁棒无失真水印

  • 动机:提出一种在文本中插入水印的方法,使得水印在文本经过扰动后仍然可靠地检测,而不改变文本的分布。

  • 方法:所使用的方法是通过将一系列随机数映射到语言模型的样本,来生成带有水印的文本,并通过水印检测方法来验证文本是否包含水印。

  • 优势:所提出的水印方法对文本进行了无失真的插入,并且在面对各种复述攻击时具有良好的鲁棒性,可靠地检测水印,且不影响文本的分布。

提出一种对语言模型文本进行无失真水印插入和鲁棒性检测的方法,实现了在文本中插入可靠水印的目标。

https://arxiv.org/abs/2307.15593 


图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除