Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models

2024年05月26日
  • 简介
    安全问题与大型语言模型(LLMs)有关已经得到广泛探讨,但是多模态大型语言模型(MLLMs)在医学环境(MedMLLMs)中的安全影响仍然研究不足。本文深入探讨了MedMLLMs的安全漏洞,尤其是在临床环境中部署时,问题和答案交互的准确性和相关性受到复杂医学挑战的严重考验。通过将现有的临床医学数据与非典型自然现象相结合,我们重新定义了两种类型的攻击:不匹配的恶意攻击(2M攻击)和优化的不匹配的恶意攻击(O2M攻击)。利用我们自己构建的大量3MAD数据集,该数据集涵盖了各种医学图像模态和有害医学场景,我们进行了全面分析,并提出了MCM优化方法,该方法显著提高了对MedMLLMs的攻击成功率。使用这个数据集和新的攻击方法,包括对LLaVA-Med的白盒攻击和对其他四个最先进模型的转移攻击,评估表明,即使设计有增强安全功能的MedMLLMs也容易受到安全漏洞的影响。我们的工作强调了实施强大的安全措施和增强开源MedMLLMs的安全性和有效性的紧迫需要,特别是考虑到医疗环境中可能出现的越狱攻击和其他恶意或临床显著的利用。为了进一步研究和复制,我们的代码可以匿名访问https://github.com/dirtycomputer/O2M_attack。警告:医学大模型越狱可能会生成包括未经验证的诊断和治疗建议的内容。请始终咨询专业医疗建议。
  • 作者讲解
  • 图表
  • 解决问题
    研究MedMLLM的安全漏洞,提出匹配恶意攻击和优化匹配恶意攻击两种攻击类型,并提出MCM优化方法来提高攻击成功率。
  • 关键思路
    通过结合临床医学数据和非典型自然现象,重新定义了匹配恶意攻击和优化匹配恶意攻击两种攻击类型,并提出了MCM优化方法,显著提高了对MedMLLM的攻击成功率。
  • 其它亮点
    使用自己构建的包含各种医学图像模态和有害医学情景的3MAD数据集,进行了全面的分析和实验。通过白盒攻击LLaVA-Med和转移攻击四个其他最先进的模型,证明即使设计有增强安全功能的MedMLLM也容易受到安全漏洞的攻击。提出了MCM优化方法来提高攻击成功率。研究结果强调了在医疗环境中实施强大的安全措施和增强开源MedMLLM的安全性和效力的紧迫性。
  • 相关研究
    最近的相关研究包括:1. "Security and Privacy Challenges in Medical Imaging: A Comprehensive Review";2. "Adversarial Attacks and Defenses in Images, Graphs and Text: A Review";3. "Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey"等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问