T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models

简介

本文中，文本到图像扩散模型展示了令人印象深刻的生成能力，但它们也表现出对后门攻击的脆弱性，这种攻击涉及通过恶意触发器操纵模型输出。在本文中，我们首次提出了一种名为T2IShield的全面防御方法，用于检测、定位和减轻此类攻击。具体而言，我们发现了由于后门触发器引起的交叉注意力图上的“同化现象”。基于这一关键洞察，我们提出了两种有效的后门检测方法：弗罗贝尼乌斯范数阈值截断和协方差判别分析。此外，我们介绍了一种二分搜索方法来定位后门样本中的触发器，并评估现有概念编辑方法在减轻后门攻击方面的功效。在两种先进的后门攻击场景的实证评估中，我们提出的防御方法显示出了其有效性。对于后门样本的检测，T2IShield在低计算成本下实现了88.9%的检测F1得分。此外，T2IShield实现了86.4%的定位F1得分，并使99%的受污染样本失效。代码已发布在https://github.com/Robin-WZQ/T2IShield。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决文本到图像生成模型面临的后门攻击问题，并提出了一种综合性的防御方法。
关键思路

文章发现了由后门触发器引起的交叉注意力图上的“同化现象”，并提出了两种有效的后门检测方法：Frobenius范数阈值截断和协方差判别分析。此外，还引入了二分搜索方法来定位后门样本中的触发器，并评估了现有概念编辑方法在缓解后门攻击方面的有效性。
其它亮点

实验结果表明，T2IShield在后门样本检测方面具有低计算成本和高检测F1得分（88.9%），在触发器定位方面具有高定位F1得分（86.4%），并能使99%的被污染样本失效。同时，作者还开源了代码。
相关研究

在相关研究方面，最近的一些研究包括：《基于生成对抗网络的后门攻击与防御综述》、《识别深度神经网络中的后门攻击》等。

T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models

提问交流

提问交流