One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models

2024年06月08日
  • 简介
    本文介绍了基于大规模图像-文本对训练的视觉语言预训练(VLP)模型在许多实际应用中展现出前所未有的能力。然而,先前的研究已经表明,VLP模型容易受到恶意对手制作的对抗样本的攻击。虽然现有的攻击已经在提高攻击效果和可转移性方面取得了巨大成功,但它们都集中于针对每个输入样本生成扰动的实例特定攻击。本文提出了一种新的通用对抗扰动(UAP)类别,可以针对所有输入样本攻击VLP模型。尽管最初将现有的UAP算法移植到执行攻击方面表现出了攻击效果的有效性,但是当应用于VLP模型时,结果并不令人满意。因此,我们重新审视了VLP模型训练中的多模态对齐,并提出了具有交叉模态条件的对比训练扰动生成器(C-PGC)。具体而言,我们首先设计了一个生成器,将跨模态信息作为条件输入,以指导训练。为了进一步利用跨模态交互,我们提出了根据我们构建的正负图像-文本对的多模态对比学习范式来制定训练目标。通过使用设计的损失训练条件生成器,我们成功地迫使对抗样本远离其在VLP模型特征空间中的原始区域,从而本质上增强了攻击。广泛的实验表明,我们的方法在各种VLP模型和视觉-语言(V+L)任务中实现了显着的攻击性能。此外,C-PGC表现出出色的黑盒可转移性,并在愈发流行的大型VLP模型(包括LLaVA和Qwen-VL)中取得了令人印象深刻的结果。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决视觉-语言预训练模型(VLP)对于恶意攻击的脆弱性问题,尤其是针对所有输入样本的通用对抗扰动(UAP)攻击。
  • 关键思路
    本文提出了一种基于对比训练的扰动生成器方法,即C-PGC,该方法通过引入跨模态信息作为条件输入来指导生成器的训练,并采用多模态对比学习来构建正负图像-文本对,从而使得对抗样本在VLP模型的特征空间中远离其原始区域,从而提高攻击效果。
  • 其它亮点
    本文的实验结果表明,C-PGC方法在各种VLP模型和视觉-语言(V+L)任务上均取得了显著的攻击性能,并展现了出色的黑盒可迁移性。此外,本文还开源了代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:Adversarial Training for Large Neural Language Models,Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency,以及Universal Adversarial Perturbations Against Semantic Image Segmentation等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问