An Image Is Worth 1000 Lies: Adversarial Transferability across Prompts on Vision-Language Models

2024年03月14日
  • 简介
    与传统的针对特定任务的视觉模型不同,最近的大型VLM可以通过使用不同的文本指令(即提示)轻松适应不同的视觉任务。然而,传统的针对特定任务的视觉模型存在一个众所周知的问题,即它们可能会被难以察觉的对抗扰动误导。此外,相同的对抗扰动可以欺骗不同的针对特定任务的模型,这一问题更加严重。考虑到VLM依赖于提示来适应不同的任务,一个有趣的问题出现了:当给出一千个不同的提示时,单个对抗图像能否误导所有的VLM预测?这个问题本质上引入了对抗可迁移性的新视角:跨提示对抗可迁移性。在这项工作中,我们提出了Cross-Prompt Attack(CroPA)。这种方法使用可学习的提示来更新视觉对抗扰动,这些提示旨在抵消对抗图像的误导效果。通过这样做,CroPA显著提高了对抗样本在不同提示之间的可迁移性。我们进行了大量实验,验证了CroPA在各种不同任务中与流行的VLM(包括Flamingo、BLIP-2和InstructBLIP)的强大的跨提示对抗可迁移性。我们的源代码可在\url{https://github.com/Haochen-Luo/CroPA}上获得。
  • 图表
  • 解决问题
    本文探讨了跨提示敌对转移的问题,即一个敌对图像是否可以误导所有基于不同提示的视觉语言模型的预测。作者提出了CroPA方法来解决这个问题。
  • 关键思路
    CroPA方法使用可学习的提示来更新视觉敌对扰动,以抵消敌对图像的误导效果,从而显著提高了敌对样本在不同提示之间的转移能力。
  • 其它亮点
    本文展示了CroPA方法在不同任务和流行的视觉语言模型上的强大跨提示敌对转移能力。实验结果表明,CroPA方法可以有效地对抗跨提示敌对攻击。作者还提供了开源代码。
  • 相关研究
    在最近的相关研究中,也有一些关注跨提示敌对转移的工作,例如《Adversarial Examples Are Not Bugs, They Are Features》和《Adversarial Transferability in Deep Learning: A Taxonomy》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论