T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models

2024年07月05日
  • 简介
    本文中,文本到图像扩散模型展示了令人印象深刻的生成能力,但它们也表现出对后门攻击的脆弱性,这种攻击涉及通过恶意触发器操纵模型输出。在本文中,我们首次提出了一种名为T2IShield的全面防御方法,用于检测、定位和减轻此类攻击。具体而言,我们发现了由于后门触发器引起的交叉注意力图上的“同化现象”。基于这一关键洞察,我们提出了两种有效的后门检测方法:弗罗贝尼乌斯范数阈值截断和协方差判别分析。此外,我们介绍了一种二分搜索方法来定位后门样本中的触发器,并评估现有概念编辑方法在减轻后门攻击方面的功效。在两种先进的后门攻击场景的实证评估中,我们提出的防御方法显示出了其有效性。对于后门样本的检测,T2IShield在低计算成本下实现了88.9%的检测F1得分。此外,T2IShield实现了86.4%的定位F1得分,并使99%的受污染样本失效。代码已发布在https://github.com/Robin-WZQ/T2IShield。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决文本到图像生成模型面临的后门攻击问题,并提出了一种综合性的防御方法。
  • 关键思路
    文章发现了由后门触发器引起的交叉注意力图上的“同化现象”,并提出了两种有效的后门检测方法:Frobenius范数阈值截断和协方差判别分析。此外,还引入了二分搜索方法来定位后门样本中的触发器,并评估了现有概念编辑方法在缓解后门攻击方面的有效性。
  • 其它亮点
    实验结果表明,T2IShield在后门样本检测方面具有低计算成本和高检测F1得分(88.9%),在触发器定位方面具有高定位F1得分(86.4%),并能使99%的被污染样本失效。同时,作者还开源了代码。
  • 相关研究
    在相关研究方面,最近的一些研究包括:《基于生成对抗网络的后门攻击与防御综述》、《识别深度神经网络中的后门攻击》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问