Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Character

2024年05月25日
  • 简介
    随着多模态大语言模型(MLLM)的出现和广泛部署,确保它们的安全性变得越来越关键。为了实现这一目标,需要通过探索攻击方法来主动发现MLLM的漏洞。因此,先前提出了基于结构的越狱攻击,其中在图像中嵌入有害的语义内容,以误导模型。然而,先前的基于结构的越狱方法主要集中于转换恶意查询的格式,例如通过排版将有害内容转换为图像,这缺乏足够的越狱效果和通用性。为了解决这些限制,我们首先将“角色扮演”概念引入MLLM越狱攻击中,并提出了一种新颖有效的方法,称为视觉角色扮演(VRP)。具体而言,VRP利用大型语言模型生成高风险角色的详细描述,并根据描述创建相应的图像。当与良性角色扮演指令文本配对时,这些高风险角色图像有效地通过扮演具有负面属性的角色来误导MLLM生成恶意响应。我们进一步将VRP方法扩展为通用设置,以展示其通用性。对流行基准测试的广泛实验表明,VRP在所有模型上的平均攻击成功率(ASR)较基线Query relevant和FigStep高出14.3%。
  • 图表
  • 解决问题
    本文旨在通过探索攻击方法,主动发现多模式大语言模型(MLLMs)的漏洞,以确保其安全性。具体而言,本文提出了一种名为Visual Role-play (VRP)的新型有效方法,通过角色扮演生成高风险角色的详细描述,并创建相应的图像,与良性角色扮演指令文本配对使用,有效地误导MLLMs生成恶意响应。
  • 关键思路
    本文提出的VRP方法通过角色扮演生成高风险角色的详细描述,并创建相应的图像,与良性角色扮演指令文本配对使用,有效地误导MLLMs生成恶意响应。
  • 其它亮点
    本文的实验结果表明,VRP方法在各种模型上的平均攻击成功率(ASR)优于Query relevant和FigStep等最强基线方法,具有较强的鲁棒性和普适性。
  • 相关研究
    在相关研究方面,最近的一些研究包括:1)《Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency》;2)《Generating Adversarial Examples with Adversarial Networks》;3)《Adversarial Examples for Natural Language Classification Problems》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论