Adversarial Examples are Misaligned in Diffusion Model Manifolds

2024年01月12日
  • 简介
    近年来,扩散模型(DMs)因其在逼近数据分布方面的成功而受到重视,产生了最先进的生成结果。然而,这些模型的多功能性不仅限于它们的生成能力,还包括各种视觉应用,如图像修复、分割、对抗鲁棒性等。本研究致力于通过扩散模型探究对抗攻击。然而,我们的目标并不是增强图像分类器的对抗鲁棒性,而是利用扩散模型来检测和分析这些攻击对图像引入的异常。为此,我们系统地研究了对抗性样本在经过扩散模型转换过程中分布的对齐情况。该方法在CIFAR-10和ImageNet数据集上进行了评估,包括后者的不同图像尺寸。结果表明,有效地区分良性和受攻击图像的能力显著,提供了有力的证据,表明对抗实例与DMs的学习流形不一致。
  • 解决问题
    探究扩散模型在对抗攻击检测中的应用。
  • 关键思路
    使用扩散模型来检测和分析对抗攻击对图像造成的异常情况,通过比较对抗样本和原始样本的分布差异来进行检测。
  • 其它亮点
    实验结果表明,扩散模型可以有效地区分良性图像和遭受对抗攻击的图像,为对抗攻击检测提供了一种新的思路。实验使用了CIFAR-10和ImageNet数据集,并在后者中考虑了不同的图像大小。
  • 相关研究
    最近的相关研究包括使用神经网络和对抗训练来提高图像分类器的对抗鲁棒性,以及使用生成对抗网络生成对抗样本。相关论文包括:“Towards Deep Learning Models Resistant to Adversarial Attacks”和“Generating Adversarial Examples with Adversarial Networks”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论