JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks

2024年04月03日
  • 简介
    随着多模态大语言模型(MLLM)的快速发展,保护这些模型免受恶意输入的同时,使它们与人类价值观保持一致已成为一个关键的挑战。本文研究了一个重要且未被探索的问题,即成功越狱大型语言模型(LLMs)的技术是否同样适用于越狱MLLMs。为了探讨这个问题,我们引入了JailBreakV-28K,这是一个开创性的基准,旨在评估LLM越狱技术对MLLMs的可转移性,从而评估MLLMs对各种越狱攻击的鲁棒性。利用本文提出的包含2,000个恶意查询的数据集,我们使用先进的越狱攻击在LLMs上生成了20,000个基于文本的越狱提示,以及来自最近MLLMs越狱攻击的8,000个基于图像的越狱输入。我们的综合数据集包括28,000个测试用例,涵盖了一系列对抗性场景。我们对10个开源MLLM进行的评估显示,从LLMs转移的攻击具有显著的攻击成功率(ASR),突显了MLLMs的一个关键漏洞,即源于它们的文本处理能力。我们的发现强调了未来研究迫切需要解决MLLMs在文本和视觉输入方面的对齐漏洞。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在研究多模态大语言模型(MLLMs)的安全问题,特别是针对恶意输入的防御和价值观的保护。研究探讨了一个重要而未被探索的问题,即成功越狱大语言模型(LLMs)的技术是否同样适用于越狱MLLMs。
  • 关键思路
    通过引入JailBreakV-28K基准测试,评估LLM越狱技术对MLLMs的转移能力,从而评估MLLMs对各种越狱攻击的鲁棒性。实验结果表明,LLM越狱攻击技术对MLLMs具有较高的攻击成功率,这表明MLLMs存在重要的文本处理漏洞。
  • 其它亮点
    论文提出了JailBreakV-28K基准测试,包括2000个恶意查询和20000个基于文本的越狱提示以及8000个基于图像的越狱输入,涵盖了各种对抗性场景。通过对10个开源MLLMs的评估,发现它们存在重要的文本处理漏洞。
  • 相关研究
    在相关研究方面,最近有一些关于MLLMs安全问题的研究,例如《Adversarial Attacks on Large Language Models》、《Towards Robust and Privacy-preserving Text Representations》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问