A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training Models

2024年07月25日
  • 简介
    随着视觉-语言预训练(VLP)模型展示出强大的多模态交互能力,神经网络的应用场景不再局限于单模态领域,而是扩展到更复杂的多模态V+L下游任务。单模态模型的安全漏洞已经得到了广泛的研究,而VLP模型的漏洞仍然具有挑战性。我们注意到,在计算机视觉模型中,对图像的理解来自注释信息,而VLP模型则旨在直接从原始文本中学习图像表示。在这种差异的推动下,我们开发了一种名为“特征引导攻击”(FGA)的新方法,该方法使用文本表示来指导对干净图像的扰动,从而生成对抗性图像。FGA与单模态领域中的许多先进攻击策略是正交的,有助于将单模态领域的丰富研究成果直接应用于多模态情况。通过适当地将文本攻击引入FGA中,我们构建了“特征引导与文本攻击”(FGA-T)。通过攻击两种模态的交互作用,FGA-T实现了对VLP模型的优越攻击效果。此外,将数据增强和动量机制纳入FGA-T中,可以显著提高其黑盒可转移性。我们的方法在各种数据集、下游任务和黑盒/白盒设置下展示了稳定且有效的攻击能力,为探索VLP模型的鲁棒性提供了统一的基线。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决VLP模型的安全漏洞问题,提出了一种新的攻击方法Feature Guidance Attack (FGA),用于生成对抗性图像。
  • 关键思路
    FGA利用文本表示来指导干扰干净图像的生成,从而生成对抗性图像,该方法相对于单模态攻击具有新颖性。
  • 其它亮点
    论文通过实验验证了FGA-T方法的有效性和稳定性,同时还增加了数据增强和动量机制以提高攻击效果和黑盒可迁移性。该方法为探索VLP模型的鲁棒性提供了一个统一的基准。
  • 相关研究
    最近的相关研究包括对单模态模型的攻击方法研究,例如FGSM和PGD等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问