论文标题:CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks

收录会议:NeurIPS 2022

论文链接:https://arxiv.org/abs/2209.08773

代码链接:https://github.com/xlhex/cater_neurips

本文提出采用基于词法的水印技术来保护受害模型的版权。该水印技术可以有效验证被怀疑的文本生成模型是否为窃取所得,并且尽最大限度保证受害模型的服务质量,同时无需存储任何来自用户的数据。但是,笔者发现,此方法可以通过逆向工程破解,从而导致水印失效。具体而言,笔者通过对比加过水印的数据和正常数据上的词频分布,即可发现水印。如图 1 所示,因为水印词和原词的词频在水印数据和正常数据存在巨大差异,只需将这些异常词做同义词替换,即可去除水印。

图. CATER的保护和检测过程