- 简介最近大型语言模型的进展凸显了滥用的风险,引起了对准确检测LLM生成内容的担忧。检测问题的一个可行解决方案是向LLM注入不可感知的标识符,即水印。先前的研究表明,无偏的水印可以确保不可伪造性,并通过维持LLM输出概率分布的期望来保留文本质量。然而,先前的无偏水印方法在本地部署方面是不实际的,因为它们依赖于对白盒LLM和检测期间的输入提示的访问。此外,这些方法未能为水印检测的第二类错误提供统计保证。本研究提出了一种名为STA-1的采样一次接受一次的无偏水印方法,它不需要访问LLM也不需要在检测期间提示,并对水印检测的第二类错误提供统计保证。此外,我们提出了一种新颖的无偏水印的水印强度和文本质量之间的权衡。我们表明,在低熵场景下,无偏水印面临着水印强度和不满意输出风险之间的权衡。在低熵和高熵数据集上的实验结果表明,STA-1实现了与现有无偏水印相当的文本质量和水印强度,且不满意输出的风险较低。本研究的实现代码可在网上获得。
- 图表
- 解决问题本论文旨在解决大语言模型(LLM)水印检测问题,提出了一种不需要访问LLMs或提示的无偏水印方法STA-1,并提出了无偏水印的水印强度和文本质量之间的新型权衡。
- 关键思路STA-1是一种无偏水印,不需要在检测过程中访问LLMs或提示,并具有类型II错误的统计保证。同时,论文提出了一种新的权衡方式,平衡水印强度和文本质量。
- 其它亮点论文的实验结果表明,STA-1的文本质量和水印强度与现有的无偏水印相当,并且具有较低的不满意输出风险。论文的代码已经开源。
- 近期相关研究包括:1. "Large-Scale Study of Curiosity-Driven Learning" 2. "Unsupervised Data Augmentation for Consistency Training" 3. "Language Models are Few-Shot Learners"
沙发等你来抢
去评论
评论
沙发等你来抢