- 简介在大规模视觉语言模型(LVLM)领域中,越狱攻击作为一种红色团队方法,旨在绕过防护措施并揭示安全隐患。现有的越狱攻击主要集中在视觉模态上,仅扰乱攻击提示中的视觉输入。然而,当面对同时融合视觉和文本特征进行生成的对齐模型时,它们表现不佳。为了解决这个限制,本文介绍了双模态对抗提示攻击(BAP),通过协同优化文本和视觉提示执行越狱攻击。首先,我们通过少量的查询无关语料库(例如肯定前缀和否定抑制)对图像进行对抗性嵌入普遍有害的扰动,以确保图像提示LVLM对任何有害查询做出积极反应。随后,利用对抗性图像,我们优化具有特定有害意图的文本提示。特别地,我们利用大型语言模型分析越狱失败,并通过反馈迭代方式使用思维链推理来完善文本提示。为了验证我们方法的有效性,我们在各种数据集和LVLM上进行了广泛的评估,证明我们的方法在攻击成功率方面显著优于其他方法(平均攻击成功率提高了29.03%)。此外,我们展示了我们的攻击对黑盒商用LVLM(如Gemini和ChatGLM)的潜力。
-
- 图表
- 解决问题本论文旨在解决在大型视觉语言模型(LVLMs)中进行越狱攻击时,仅关注视觉输入的局限性,提出了一种联合优化文本和视觉提示的双模态对抗提示攻击(BAP)的方法。
- 关键思路该方法通过在图像中嵌入普适性有害扰动,然后利用对抗图像优化文本提示,进而执行越狱攻击。通过迭代反馈的方式,利用大型语言模型分析越狱失败,精细化文本提示。
- 其它亮点论文在多个数据集和LVLMs上进行了广泛的评估,结果表明该方法的攻击成功率平均提高了29.03%。此外,还展示了该方法在黑盒商业LVLMs上的潜在攻击能力,如Gemini和ChatGLM。
- 与此相关的研究包括视觉攻击和文本攻击,以及在LVLMs上进行的对抗攻击。近期的相关论文包括:“TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP”和“Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流