Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models

简介

本文研究了多模态大语言模型（MLLMs）的无害化对齐问题。我们对代表性的MLLMs进行了系统的实证分析，并揭示了图像输入对MLLMs的对齐漏洞。在此启发下，我们提出了一种名为HADES的新型越狱方法，使用精心制作的图像来隐藏和放大文本输入中恶意意图的有害性。实验结果表明，HADES可以有效地越狱现有的MLLMs，对于LLaVA-1.5和Gemini Pro Vision，平均攻击成功率（ASR）分别达到90.26％和71.60％。我们的代码和数据将公开发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文研究了多模态大型语言模型（MLLMs）的无害对齐问题。作者试图解决在输入图像的情况下，MLLMs的对齐漏洞问题。
关键思路

作者提出了一种名为HADES的新的越狱方法，使用精心制作的图像隐藏和放大了文本输入中恶意意图的有害性。
其它亮点

作者通过实验分析了代表性MLLMs的无害性能，并揭示了图像输入对MLLMs的对齐漏洞的影响。HADES方法可以有效地越狱现有的MLLMs，对LLaVA-1.5平台的攻击成功率达到了90.26％，对Gemini Pro Vision平台的攻击成功率达到了71.60％。作者将代码和数据公开发布。
相关研究

在这个领域中，最近的相关研究包括：《GPT-3：语言模型的新里程碑》、《多模态学习及其应用》等。