- 简介有针对性的基于对抗样本的转移攻击对大型视觉语言模型(VLM)构成了重大威胁。然而,目前最先进的转移攻击由于迭代次数过多而成本高昂。此外,生成的对抗样本存在显著的对抗噪声,并且在逃避DiffPure等防御方法方面的效果有限。为了解决这些问题,我们受到分数匹配的启发,引入了AdvDiffVLM,利用扩散模型生成自然、无限制的对抗样本。具体来说,AdvDiffVLM利用自适应集成梯度估计来修改扩散模型反向生成过程中的分数,确保生成的对抗样本包含自然的对抗语义,从而具有增强的可转移性。同时,为了进一步提高对抗样本的质量,我们采用GradCAM引导掩码方法将对抗语义分散到整个图像中,而不是集中在特定区域。实验结果表明,我们的方法相对于现有的转移攻击方法,可以实现10倍到30倍的加速,同时保持了对抗样本的优越质量。此外,生成的对抗样本具有很强的可转移性,并且对抗防御方法的鲁棒性得到了增强。值得注意的是,AdvDiffVLM可以在黑盒方式下成功攻击商业VLM,包括GPT-4V。
- 图表
- 解决问题本论文旨在解决针对大型视觉语言模型的有针对性转移攻击所带来的威胁问题,同时提高对抗性样本的生成效率和质量。
- 关键思路本论文的解决方案是利用扩散模型生成自然、无限制的对抗性样本,同时利用自适应集成梯度估计和GradCAM-guided Mask方法改善对抗性样本的生成效率和质量。
- 其它亮点本论文提出的AdvDiffVLM方法相较于现有的转移攻击方法,生成效率提高了10倍到30倍,同时对抗性样本质量更高,具有较强的转移性和对抗性防御能力。实验结果表明,AdvDiffVLM可以成功地对商业化的视觉语言模型进行黑盒攻击。
- 与本论文相关的研究包括:针对大型视觉语言模型的攻击和防御方法,以及利用扩散模型生成对抗性样本的相关研究。
沙发等你来抢
去评论
评论
沙发等你来抢