Explanation as a Watermark: Towards Harmless and Multi-bit Model Ownership Verification via Watermarking Feature Attribution

简介

所有权验证是目前最关键和广泛采用的保护模型版权的后期方法。通常，模型所有者利用它来确定给定的可疑第三方模型是否被盗用，通过检查它是否具有从他们发布的模型中“继承”而来的特定属性来进行鉴定。目前，基于后门的模型水印是在发布的模型中植入这些属性的主要和前沿方法。然而，基于后门的方法具有两个致命的缺点，包括有害性和歧义性。前者表示它们引入了恶意可控的误分类行为（即后门）到带水印的发布模型中。后者表示，恶意用户可以轻易地通过找到其他被错误分类的样本来通过验证，导致所有权的歧义。在本文中，我们认为这两个限制都源于现有水印方案的“零比特”特性，即它们利用预测的状态（即被错误分类）进行验证。在这种理解的基础上，我们设计了一种新的水印范式，即解释作为水印（EaaW），它将验证行为植入到特征归因的解释中，而不是模型预测中。具体而言，EaaW将“多比特”水印嵌入到特定触发样本的特征归因解释中，而不改变原始预测。我们相应地设计了水印嵌入和提取算法，受可解释的人工智能启发。特别是，我们的方法可用于不同的任务（例如，图像分类和文本生成）。广泛的实验证实了我们的EaaW的有效性和无害性，以及其对潜在攻击的抵抗能力。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

解决模型版权保护中存在的水印方法有害性和歧义性的问题。

关键思路

设计一种新的水印方法——Explanation as a Watermark (EaaW)，将验证行为嵌入到特征归因解释中，而不是模型预测中。

其它亮点

EaaW是一种多位水印方法，不会对原始预测结果造成影响，具有防攻击性，可用于不同任务，实验验证了其有效性和无害性。

Explanation as a Watermark: Towards Harmless and Multi-bit Model Ownership Verification via Watermarking Feature Attribution

提问交流

提问交流