NeurIPS 2022 | CATER：针对模型窃取的版权保护之选择性水印

论文标题：CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks

收录会议：NeurIPS 2022

论文链接：https://arxiv.org/abs/2209.08773

代码链接：https://github.com/xlhex/cater_neurips

本文提出采用基于词法的水印技术来保护受害模型的版权。该水印技术可以有效验证被怀疑的文本生成模型是否为窃取所得，并且尽最大限度保证受害模型的服务质量，同时无需存储任何来自用户的数据。但是，笔者发现，此方法可以通过逆向工程破解，从而导致水印失效。具体而言，笔者通过对比加过水印的数据和正常数据上的词频分布，即可发现水印。如图 1 所示，因为水印词和原词的词频在水印数据和正常数据存在巨大差异，只需将这些异常词做同义词替换，即可去除水印。

图. CATER的保护和检测过程

NeurIPS 2022 | CATER：针对模型窃取的版权保护之选择性水印

评论