- 简介随着多模态大语言模型(MLLMs)的出现和广泛部署,确保它们的安全性变得越来越重要。然而,随着额外模态的整合,MLLMs也面临新的漏洞,使它们容易受到基于结构的越狱攻击的影响,即将语义内容(例如“有害文本”)注入图像以误导MLLMs。在这项工作中,我们旨在防御此类威胁。具体而言,我们提出了自适应防护提示(AdaShield),它在不微调MLLMs或训练其他模块(例如后期内容检测器)的情况下,在输入前缀中添加防御提示,以防御基于结构的越狱攻击。最初,我们提供了一个手动设计的静态防御提示,它逐步彻底检查图像和指令内容,并指定对恶意查询的响应方法。此外,我们引入了一个自适应自我完善框架,由目标MLLM和基于LLM的防御提示生成器(Defender)组成。这些组件协作并迭代地通信以生成防御提示。对流行的基于结构的越狱攻击和良性数据集进行的大量实验表明,我们的方法可以在不影响模型在标准良性任务上的一般能力的情况下,持续提高MLLMs对基于结构的越狱攻击的稳健性。我们的代码可在https://github.com/rain305f/AdaShield上获得。
-
- 图表
- 解决问题解决问题:本论文旨在解决Multimodal Large Language Models(MLLMs)在融合多种模态后容易受到结构性越狱攻击的问题,提出了一种新的防御方法。
- 关键思路关键思路:本文提出了一种名为AdaShield的防御方法,通过在输入中添加防御提示,保护MLLMs免受结构性越狱攻击,无需微调MLLMs或训练额外的模块。
- 其它亮点其他亮点:本文提出了一个手动设计的静态防御提示和一个自适应自我完善框架,由目标MLLM和基于LLM的防御提示生成器(Defender)组成。实验结果表明,AdaShield可以显著提高MLLMs对结构性越狱攻击的鲁棒性,而不影响其在标准良性任务上的性能。作者已经开源了代码。
- 相关研究:最近的相关研究包括使用对抗训练来提高模型的鲁棒性,以及使用额外的后处理模块来检测有害内容。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流