A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training Models

简介

随着视觉-语言预训练（VLP）模型展示出强大的多模态交互能力，神经网络的应用场景不再局限于单模态领域，而是扩展到更复杂的多模态V+L下游任务。单模态模型的安全漏洞已经得到了广泛的研究，而VLP模型的漏洞仍然具有挑战性。我们注意到，在计算机视觉模型中，对图像的理解来自注释信息，而VLP模型则旨在直接从原始文本中学习图像表示。在这种差异的推动下，我们开发了一种名为“特征引导攻击”（FGA）的新方法，该方法使用文本表示来指导对干净图像的扰动，从而生成对抗性图像。FGA与单模态领域中的许多先进攻击策略是正交的，有助于将单模态领域的丰富研究成果直接应用于多模态情况。通过适当地将文本攻击引入FGA中，我们构建了“特征引导与文本攻击”（FGA-T）。通过攻击两种模态的交互作用，FGA-T实现了对VLP模型的优越攻击效果。此外，将数据增强和动量机制纳入FGA-T中，可以显著提高其黑盒可转移性。我们的方法在各种数据集、下游任务和黑盒/白盒设置下展示了稳定且有效的攻击能力，为探索VLP模型的鲁棒性提供了统一的基线。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

本论文旨在解决VLP模型的安全漏洞问题，提出了一种新的攻击方法Feature Guidance Attack (FGA)，用于生成对抗性图像。

关键思路

FGA利用文本表示来指导干扰干净图像的生成，从而生成对抗性图像，该方法相对于单模态攻击具有新颖性。

其它亮点

论文通过实验验证了FGA-T方法的有效性和稳定性，同时还增加了数据增强和动量机制以提高攻击效果和黑盒可迁移性。该方法为探索VLP模型的鲁棒性提供了一个统一的基准。

A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training Models

提问交流

提问交流