- 简介多模态大语言模型(MLLMs)展示了惊人的推理能力,但它们比其前身LLM更容易受到越狱攻击。虽然仍然能够检测到不安全的响应,但我们观察到,由于引入了图像特征,MLLM中预对齐LLMs的安全机制很容易被绕过。为了构建强大的MLLMs,我们提出了ECSO(闭眼,安全打开),这是一种新的无需训练的保护方法,利用MLLMs固有的安全意识,通过自适应地将不安全的图像转换为文本来激活MLLMs中预对齐LLMs的内在安全机制,从而生成更安全的响应。对五个最先进的MLLMs的实验表明,我们的ECSO显著提高了模型的安全性(例如,在MM-SafetyBench(SD+OCR)上提高了37.6%,在VLSafe上提高了71.3%),同时在常见的MLLM基准测试中保持了实用结果的一致性。此外,我们展示了ECSO可以用作数据引擎,为MLLM对齐生成监督微调(SFT)数据,而无需额外的人工干预。
- 图表
- 解决问题本论文旨在解决多模态大语言模型(MLLMs)在面对破解攻击时的脆弱性问题,提出了一种名为ECSO的新方法来增强模型的安全性。
- 关键思路ECSO是一种训练免费的保护方法,利用MLLMs内在的安全意识,通过将不安全的图像自适应转换为文本,以激活MLLMs中预先对齐的LLMs的内在安全机制来生成更安全的响应。
- 其它亮点实验结果表明,ECSO显著提高了模型的安全性,同时在常见的MLLM基准测试中保持了实用性结果。此外,ECSO还可以用作数据引擎,为MLLM对齐生成监督微调数据,无需额外的人工干预。
- 最近在这个领域中,还有一些相关的研究,例如《Robustness Verification of Neural Networks with Provable Guarantees》和《Adversarial Attacks and Defenses in Images, Graphs and Text: A Review》。
沙发等你来抢
去评论
评论
沙发等你来抢