Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models

2024年03月14日
  • 简介
    本文研究了多模态大语言模型(MLLMs)的无害化对齐问题。我们对代表性的MLLMs进行了系统的实证分析,并揭示了图像输入对MLLMs的对齐漏洞。在此启发下,我们提出了一种名为HADES的新型越狱方法,使用精心制作的图像来隐藏和放大文本输入中恶意意图的有害性。实验结果表明,HADES可以有效地越狱现有的MLLMs,对于LLaVA-1.5和Gemini Pro Vision,平均攻击成功率(ASR)分别达到90.26%和71.60%。我们的代码和数据将公开发布。
  • 作者讲解
  • 图表
  • 解决问题
    本论文研究了多模态大型语言模型(MLLMs)的无害对齐问题。作者试图解决在输入图像的情况下,MLLMs的对齐漏洞问题。
  • 关键思路
    作者提出了一种名为HADES的新的越狱方法,使用精心制作的图像隐藏和放大了文本输入中恶意意图的有害性。
  • 其它亮点
    作者通过实验分析了代表性MLLMs的无害性能,并揭示了图像输入对MLLMs的对齐漏洞的影响。HADES方法可以有效地越狱现有的MLLMs,对LLaVA-1.5平台的攻击成功率达到了90.26%,对Gemini Pro Vision平台的攻击成功率达到了71.60%。作者将代码和数据公开发布。
  • 相关研究
    在这个领域中,最近的相关研究包括:《GPT-3:语言模型的新里程碑》、《多模态学习及其应用》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问