Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt

2024年06月06日
  • 简介
    在大规模视觉语言模型(LVLM)领域中,越狱攻击作为一种红队测试方法,旨在绕过防护措施并揭示安全隐患。现有的越狱攻击主要集中在视觉模态上,只扰动攻击提示中的视觉输入。然而,当面对同时融合视觉和文本特征进行生成的对齐模型时,这些攻击就会出现不足。为了解决这个限制,本文引入了双模态对抗提示攻击(BAP),通过协同优化文本和视觉提示来执行越狱攻击。首先,我们在图像中对普遍有害的扰动进行对抗嵌入,引导少量的查询不可知语料库(例如肯定前缀和否定抑制)。这个过程确保图像提示LVLM对任何有害查询都做出积极回应。随后,利用对抗图像,我们优化具有特定有害意图的文本提示。特别地,我们利用大型语言模型分析越狱失败,并通过一种反馈迭代的方式使用思维链推理来改进文本提示。为了验证我们方法的有效性,我们在各种数据集和LVLM上进行了广泛的评估,证明我们的方法在攻击成功率上显著优于其他方法(平均攻击成功率提高了29.03%)。此外,我们展示了我们攻击在黑盒商业LVLM上的潜力,例如Gemini和ChatGLM。
  • 作者讲解
  • 图表
  • 解决问题
    本文试图通过提出Bi-Modal Adversarial Prompt Attack(BAP)来解决当前Jailbreak攻击在面对同时融合文本和图像特征的大型视觉语言模型时的局限性。
  • 关键思路
    本文提出的BAP攻击方法通过将有害扰动嵌入图像中,然后利用大型语言模型分析Jailbreak攻击的失败,通过迭代的方式优化文本提示,最终实现对大型视觉语言模型的攻击。
  • 其它亮点
    本文通过实验验证了BAP攻击方法的有效性,并展示了该方法在黑盒商业大型视觉语言模型上的潜在攻击能力。实验使用了多个数据集和大型视觉语言模型,并取得了显著的攻击效果。本文的方法提供了一种新的思路来解决Jailbreak攻击面对融合文本和图像特征的大型视觉语言模型时的局限性。
  • 相关研究
    相关研究包括但不限于:VisualBERT、ViLBERT、LXMERT等大型视觉语言模型的研究;以及针对这些模型的攻击方法,如Jailbreak攻击、Text-based Adversarial Attack等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问