- 简介最近大型语言模型(LLMs)的进展已经导致生成的文本输出与人类生成的文本相似度难以区分。数字水印算法是一种潜在的工具,可以通过在LLM生成的输出中嵌入可检测的签名来区分LLM生成的文本和人类生成的文本。然而,目前的数字水印方案缺乏对已知数字水印算法攻击的鲁棒性。此外,考虑到LLM每天生成成千上万的文本输出,数字水印算法需要记忆它生成的每个输出才能实现检测,因此在实践中是不切实际的。在本文中,我们针对当前数字水印方案的局限性,提出了一种针对LLMs的“基于主题的数字水印算法”概念。所提出的算法根据输入提示或未加水印的LLM的输出提取的主题确定如何为加水印的LLM输出生成令牌。受以前的工作启发,我们建议使用一对列表(根据指定的提取主题生成),指定在生成LLM的加水印输出时包括或排除某些令牌。使用所提出的数字水印算法,我们展示了数字水印检测算法的实用性。此外,我们讨论了针对LLMs的数字水印算法可能出现的各种攻击以及所提出的数字水印方案对于建模潜在攻击者的可行性和其利益与损失之间的关系的好处。
-
- 图表
- 解决问题提出一种基于主题的水印算法,以区分人工生成的文本和大型语言模型生成的文本。当前的水印算法对已知攻击缺乏鲁棒性,并且不实用。
- 关键思路通过提取输入提示或非水印的LLM的输出的主题来确定如何为带水印的LLM输出生成标记,从而实现水印算法。使用两个基于指定提取主题生成的列表,指定在生成LLM的带水印输出时包含或排除某些标记。
- 其它亮点实验结果表明,所提出的水印算法是实用的,并且可以检测到水印。论文还讨论了可能出现的攻击类型,并探讨了所提出的水印方案对于建模潜在攻击者的可行性的好处。
- 最近的相关研究包括“基于深度学习的文本水印技术”和“使用卷积神经网络进行文本水印嵌入和提取”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流