Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt

向作者提问

NEW

简介

在大规模视觉语言模型（LVLM）领域中，越狱攻击作为一种红色团队方法，旨在绕过防护措施并揭示安全隐患。现有的越狱攻击主要集中在视觉模态上，仅扰乱攻击提示中的视觉输入。然而，当面对同时融合视觉和文本特征进行生成的对齐模型时，它们表现不佳。为了解决这个限制，本文介绍了双模态对抗提示攻击（BAP），通过协同优化文本和视觉提示执行越狱攻击。首先，我们通过少量的查询无关语料库（例如肯定前缀和否定抑制）对图像进行对抗性嵌入普遍有害的扰动，以确保图像提示LVLM对任何有害查询做出积极反应。随后，利用对抗性图像，我们优化具有特定有害意图的文本提示。特别地，我们利用大型语言模型分析越狱失败，并通过反馈迭代方式使用思维链推理来完善文本提示。为了验证我们方法的有效性，我们在各种数据集和LVLM上进行了广泛的评估，证明我们的方法在攻击成功率方面显著优于其他方法（平均攻击成功率提高了29.03%）。此外，我们展示了我们的攻击对黑盒商用LVLM（如Gemini和ChatGLM）的潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决在大型视觉语言模型（LVLMs）中进行越狱攻击时，仅关注视觉输入的局限性，提出了一种联合优化文本和视觉提示的双模态对抗提示攻击（BAP）的方法。
关键思路

该方法通过在图像中嵌入普适性有害扰动，然后利用对抗图像优化文本提示，进而执行越狱攻击。通过迭代反馈的方式，利用大型语言模型分析越狱失败，精细化文本提示。
其它亮点

论文在多个数据集和LVLMs上进行了广泛的评估，结果表明该方法的攻击成功率平均提高了29.03%。此外，还展示了该方法在黑盒商业LVLMs上的潜在攻击能力，如Gemini和ChatGLM。
相关研究

与此相关的研究包括视觉攻击和文本攻击，以及在LVLMs上进行的对抗攻击。近期的相关论文包括：“TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP”和“Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问