- 简介随着多模态大语言模型(MLLMs)的快速发展,确保这些模型能够抵御恶意输入并与人类价值观保持一致已经成为一个关键挑战。本文研究了一个重要且未被探索的问题,即成功越狱大语言模型(LLMs)的技术是否同样适用于越狱MLLMs。为了探索这个问题,我们引入了JailBreakV-28K,这是一个开创性的基准,旨在评估LLM越狱技术对MLLM的可转移性,从而评估MLLM对各种越狱攻击的鲁棒性。利用本文中提出的包含2,000个恶意查询的数据集,我们使用先进的LLM越狱攻击生成了20,000个基于文本的越狱提示,同时使用最近的MLLM越狱攻击生成了8,000个基于图像的越狱输入,我们的综合数据集包括28,000个测试用例,涵盖了一系列对抗性场景。我们对10个开源MLLM进行的评估显示,从LLMs转移的攻击具有显著的攻击成功率(ASR),突显了MLLM的一个关键漏洞,即文本处理能力。我们的发现强调了未来研究需要解决MLLM在文本和视觉输入方面的对齐漏洞的紧迫性。
- 图表
- 解决问题研究多模态大语言模型(MLLMs)的安全性问题,探究现有的LLM jailbreak技术是否同样适用于MLLMs。
- 关键思路通过引入JailBreakV-28K数据集,评估LLM jailbreak技术对MLLMs的转移能力,发现MLLMs在文本处理方面存在严重漏洞。
- 其它亮点论文提出了JailBreakV-28K数据集,并使用其中的2,000个恶意查询生成了20,000个基于文本的jailbreak prompts和8,000个基于图像的jailbreak inputs,共包括28,000个测试用例。通过对10个开源MLLMs的评估,发现LLM jailbreak技术对MLLMs的攻击成功率较高,强调了解决MLLMs文本和视觉输入方面的漏洞的紧迫性。
- 相关研究包括:Adversarial Attacks and Defenses in Images, Graphs and Text: A Review等。
沙发等你来抢
去评论
评论
沙发等你来抢