Efficiently Adversarial Examples Generation for Visual-Language Models under Targeted Transfer Scenarios using Diffusion Models

2024年04月16日
  • 简介
    有针对性的基于对抗样本的迁移攻击对大型视觉语言模型(VLM)构成了重大威胁。然而,目前最先进的迁移攻击由于迭代次数过多导致成本高昂。此外,生成的对抗样本存在明显的对抗噪声,并且在规避DiffPure等防御方法方面的效果有限。为了解决这些问题,我们受到分数匹配的启发,引入了AdvDiffVLM,利用扩散模型生成自然、无限制的对抗样本。具体而言,AdvDiffVLM采用自适应集成梯度估计来修改扩散模型的反向生成过程中的分数,确保生成的对抗样本包含自然的对抗语义,从而具有增强的可迁移性。同时,为了进一步提高对抗样本的质量,我们采用GradCAM引导的掩码方法将对抗语义分散到图像中,而不是集中在特定区域。实验结果表明,与现有的迁移攻击方法相比,我们的方法实现了10倍到30倍的加速,同时保持了对抗样本的优越质量。此外,生成的对抗样本具有很强的可迁移性,并且表现出对抗防御方法的增强鲁棒性。值得注意的是,AdvDiffVLM可以以黑盒方式成功攻击商业VLM,包括GPT-4V。
  • 图表
  • 解决问题
    本篇论文旨在解决针对大型视觉语言模型(VLMs)的有针对性的基于转移的攻击所带来的威胁。当前转移攻击的迭代次数过多,造成了高昂的成本,并且生成的对抗样本存在明显的对抗噪声,对抗性有限。
  • 关键思路
    本文提出了AdvDiffVLM方法,该方法利用扩散模型生成自然、无限制的对抗样本。具体来说,AdvDiffVLM采用自适应集成梯度估计来修改扩散模型的得分,在反向生成过程中确保生成的对抗样本包含自然的对抗语义,从而具有增强的可转移性。同时,为了进一步提高对抗样本的质量,我们采用GradCAM引导掩膜方法将对抗语义分散到整个图像中,而不是集中在特定区域。
  • 其它亮点
    本文的方法相比现有的转移攻击方法,速度提高了10倍到30倍,同时对抗样本的质量更高。生成的对抗样本具有较强的可转移性,并且对抗防御方法的鲁棒性增强。值得关注的是,AdvDiffVLM可以在黑盒情况下成功攻击商业VLMs,包括GPT-4V。
  • 相关研究
    最近在这个领域的相关研究还有:DiffPure防御方法、基于转移的攻击方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论