A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules

简介

自从ChatGPT在2022年11月推出以来，将（几乎）不可察觉的统计信号嵌入到大型语言模型（LLM）生成的文本中，也称为水印，已被用作从人类编写的文本中可证明检测LLM生成的文本的原则性方法。在本文中，我们介绍了一个通用且灵活的框架，用于推理水印的统计效率和设计强大的检测规则。受到水印检测的假设检验公式的启发，我们的框架首先选择文本的关键统计量和一个秘密密钥——由LLM提供给验证者——以实现控制误报率（错误地将人类编写的文本误判为LLM生成的文本）。接下来，这个框架允许我们通过获得文本的渐近误拒率（错误地将LLM生成的文本错误地分类为人类编写的文本）的闭式表达式来评估水印检测规则的功率。我们的框架进一步将确定最佳检测规则的问题简化为解决极小化最大化优化程序的问题。我们将此框架应用于两种代表性的水印——其中一种已在OpenAI内部实现——并获得了几个发现，这些发现可以在指导实施水印的实践中起到重要的作用。特别地，我们推导出了这些水印的最优检测规则在我们的框架下。通过数值实验，我们证明了这些理论推导的检测规则具有竞争力，有时比现有的检测方法具有更高的功率。
图表
解决问题

本论文旨在介绍一种新的水印技术，用于检测大型语言模型生成的文本和人类编写的文本之间的差异。同时，论文还试图解决误判率的问题。
关键思路

论文提出了一种基于假设检验的水印检测框架，该框架可以选择文本的关键统计量和秘密密钥来控制误判率，并通过解决极小化最大化问题确定最优检测规则。
其它亮点

论文应用了该框架来评估两种代表性水印，并得出了一些有价值的结论。实验表明，该框架提出的检测规则具有竞争力，有时比现有的检测方法具有更高的功率。
相关研究

在这个领域中，最近的相关研究包括“基于语言模型的水印技术”和“对抗性攻击下的水印技术”等。

A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules

评论