Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation

2024年03月14日
  • 简介
    多模态大语言模型(MLLMs)展示了惊人的推理能力,但它们比其前身LLM更容易受到越狱攻击。虽然仍然能够检测到不安全的响应,但我们观察到,由于引入了图像特征,MLLM中预对齐LLMs的安全机制很容易被绕过。为了构建强大的MLLMs,我们提出了ECSO(闭眼,安全打开),这是一种新的无需训练的保护方法,利用MLLMs固有的安全意识,通过自适应地将不安全的图像转换为文本来激活MLLMs中预对齐LLMs的内在安全机制,从而生成更安全的响应。对五个最先进的MLLMs的实验表明,我们的ECSO显著提高了模型的安全性(例如,在MM-SafetyBench(SD+OCR)上提高了37.6%,在VLSafe上提高了71.3%),同时在常见的MLLM基准测试中保持了实用结果的一致性。此外,我们展示了ECSO可以用作数据引擎,为MLLM对齐生成监督微调(SFT)数据,而无需额外的人工干预。
  • 图表
  • 解决问题
    本论文旨在解决多模态大语言模型(MLLMs)在面对破解攻击时的脆弱性问题,提出了一种名为ECSO的新方法来增强模型的安全性。
  • 关键思路
    ECSO是一种训练免费的保护方法,利用MLLMs内在的安全意识,通过将不安全的图像自适应转换为文本,以激活MLLMs中预先对齐的LLMs的内在安全机制来生成更安全的响应。
  • 其它亮点
    实验结果表明,ECSO显著提高了模型的安全性,同时在常见的MLLM基准测试中保持了实用性结果。此外,ECSO还可以用作数据引擎,为MLLM对齐生成监督微调数据,无需额外的人工干预。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《Robustness Verification of Neural Networks with Provable Guarantees》和《Adversarial Attacks and Defenses in Images, Graphs and Text: A Review》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论