Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Characte

2024年05月25日
  • 简介
    随着多模态大语言模型(MLLMs)的出现和广泛部署,确保它们的安全性变得越来越关键。为了实现这一目标,我们需要通过探索攻击方法来主动发现MLLMs的漏洞。因此,结构化越狱攻击被提出,其中有害的语义内容被嵌入图像中,以误导模型。然而,先前的结构化越狱方法主要集中于转换恶意查询的格式,例如通过排版将有害内容转换为图像,这缺乏足够的越狱效果和通用性。为了解决这些限制,我们首先将“角色扮演”的概念引入到MLLM越狱攻击中,并提出了一种新颖有效的方法,称为视觉角色扮演(VRP)。具体来说,VRP利用大型语言模型生成高风险角色的详细描述,并基于这些描述创建相应的图像。当与良性角色扮演指令文本配对时,这些高风险角色图像有效地误导MLLMs通过扮演具有负面属性的角色生成恶意响应。我们进一步将我们的VRP方法扩展到通用设置,以展示其通用性。在流行的基准测试中进行的广泛实验表明,VRP在所有模型中平均攻击成功率(ASR)较最强的基线Query relevant和FigStep高14.3%。
  • 图表
  • 解决问题
    本论文旨在通过探索攻击方法,发现多模态大语言模型(MLLMs)的漏洞,从而确保它们的安全性。具体而言,论文提出了一种名为Visual Role-play(VRP)的新颖有效方法,用于在MLLMs中嵌入有害语义内容,以欺骗模型。
  • 关键思路
    VRP方法利用大语言模型生成高风险角色的详细描述,并根据描述创建相应的图像。这些高风险角色图像与良性角色扮演指令文本配对使用,有效地通过扮演具有负面属性的角色来误导MLLMs生成恶意响应。
  • 其它亮点
    论文设计了广泛的实验,并在多个数据集上测试了VRP方法的攻击成功率。实验结果表明,VRP方法在所有模型上的攻击成功率平均提高了14.3%,比最强的基线Query relevant和FigStep表现更好。此外,论文还将VRP方法扩展到了通用设置,证明了其可推广性。
  • 相关研究
    最近的相关研究包括基于结构的越狱攻击方法,如将有害内容通过排版转换为图像。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论