Pixel is a Barrier: Diffusion Models Are More Adversarially Robust Than We Think

2024年04月20日
  • 简介
    对于扩散模型的对抗样本被广泛用作解决安全问题的方案。通过向个人图像添加对抗性扰动,攻击者无法轻易地编辑或模仿它们。然而,需要注意的是,所有这些保护都针对潜在的扩散模型(LDMs),而像素空间中的扩散模型的对抗性样本(PDMs)被大大忽视了。这可能会让我们误以为扩散模型像大多数深度模型一样容易受到对抗性攻击。本文展示了新的发现:尽管基于梯度的白盒攻击可以用于攻击LDMs,但它们无法攻击PDMs。这一发现得到了对各种PDMs和LDMs的广泛实验的支持,这些模型具有不同的模型结构,这意味着扩散模型确实更加抗击。我们还发现,PDMs可以用作现成的净化器,有效地消除在LDMs上生成的对抗性模式,这意味着大多数现今的保护方法在某种程度上无法保护我们的图像免受恶意攻击。我们希望我们的洞见能够激发社区重新思考扩散模型的对抗样本作为保护方法,并向更有效的保护迈进。代码可在https://github.com/xavihart/PDM-Pure中找到。
  • 图表
  • 解决问题
    本文旨在探讨扩散模型的对抗样本问题,特别是在像素空间中的对抗样本。作者试图验证扩散模型是否具有更强的对抗鲁棒性。
  • 关键思路
    本文发现,虽然梯度攻击可以用于攻击扩散模型的潜在空间,但它们无法攻击像素空间中的扩散模型。此外,像素空间中的扩散模型可以用作现成的净化器,以有效地消除在潜在空间中生成的对抗模式。
  • 其它亮点
    本文的实验结果表明,扩散模型具有更强的对抗鲁棒性,并且像素空间中的扩散模型可以用作净化器来消除对抗模式。作者提供了开源代码。
  • 相关研究
    最近的相关研究包括:Adversarial Examples in the Physical World (Kurakin et al., 2016),Towards Deep Learning Models Resistant to Adversarial Attacks (Madry et al., 2018),Adversarial Examples Are Not Bugs, They Are Features (Ilyas et al., 2019)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论