Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective

2024年04月30日
  • 简介
    高级文本到图像扩散模型引发了有关身份隐私侵犯、版权侵权和不适宜内容生成的安全问题。为此,已经开发了取消学习方法,以从扩散模型中删除这些涉及的概念。然而,这些取消学习方法只是移动了文本到图像映射,并保留了扩散模型的生成空间中的视觉内容,留下了一个致命的缺陷,无法恢复这些被删除的概念。这个擦除可信度问题需要探究,但以前的方法从两个方面来看都不够优秀:(1)缺乏可转移性:一些方法在白盒设置内操作,需要访问取消学习模型。而且,学习的对抗性输入通常无法转移到其他未学习的模型以恢复概念;(2)攻击受限:提示级别的方法难以从未学习的模型中恢复狭窄的概念,例如名人身份。因此,本文旨在利用对抗性攻击的可转移性来探究黑盒设置下的取消学习鲁棒性。这种具有挑战性的情况假定取消学习方法是未知的,无法对其进行优化,需要攻击能够在不同的未学习模型之间进行转移。具体而言,我们采用对抗性搜索策略来搜索可以在不同未学习模型之间转移的对抗性嵌入。该策略采用原始的稳定扩散模型作为代理模型,以迭代地擦除和搜索嵌入,使其能够找到可以为不同的取消学习方法恢复目标概念的嵌入。广泛的实验表明,搜索到的对抗性嵌入在几种最先进的取消学习方法之间具有可转移性,并且在不同层次的概念上具有有效性。
  • 图表
  • 解决问题
    本论文旨在解决高级文本到图像扩散模型存在的擅自公开身份隐私、侵犯版权、生成不安全内容等问题,以及现有的取消学习方法只能在扩散模型的生成空间内保留视觉内容,而无法还原已删除的概念,从而提出一种可转移的对抗攻击策略,以探究取消学习方法的鲁棒性。
  • 关键思路
    通过对抗攻击策略来搜索可转移的对抗嵌入,以恢复已删除的概念,从而探究取消学习方法的鲁棒性。
  • 其它亮点
    论文使用了原始的稳定扩散模型作为代理模型,采用对抗搜索策略来搜索对抗嵌入,以找到可以恢复目标概念的嵌入。实验表明,搜索到的对抗嵌入可以在多种最先进的取消学习方法中进行转移,并且在不同级别的概念中具有良好的效果。
  • 相关研究
    在这个领域中,最近的相关研究包括:《高级文本到图像生成的取消学习方法》、《基于对抗训练的文本到图像生成模型的隐私保护》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论