JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks

向作者提问

NEW

简介

随着多模态大语言模型（MLLM）的快速发展，保护这些模型免受恶意输入的同时，使它们与人类价值观保持一致已成为一个关键的挑战。本文研究了一个重要且未被探索的问题，即成功越狱大型语言模型（LLMs）的技术是否同样适用于越狱MLLMs。为了探讨这个问题，我们引入了JailBreakV-28K，这是一个开创性的基准，旨在评估LLM越狱技术对MLLMs的可转移性，从而评估MLLMs对各种越狱攻击的鲁棒性。利用本文提出的包含2,000个恶意查询的数据集，我们使用先进的越狱攻击在LLMs上生成了20,000个基于文本的越狱提示，以及来自最近MLLMs越狱攻击的8,000个基于图像的越狱输入。我们的综合数据集包括28,000个测试用例，涵盖了一系列对抗性场景。我们对10个开源MLLM进行的评估显示，从LLMs转移的攻击具有显著的攻击成功率（ASR），突显了MLLMs的一个关键漏洞，即源于它们的文本处理能力。我们的发现强调了未来研究迫切需要解决MLLMs在文本和视觉输入方面的对齐漏洞。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在研究多模态大语言模型（MLLMs）的安全问题，特别是针对恶意输入的防御和价值观的保护。研究探讨了一个重要而未被探索的问题，即成功越狱大语言模型（LLMs）的技术是否同样适用于越狱MLLMs。
关键思路

通过引入JailBreakV-28K基准测试，评估LLM越狱技术对MLLMs的转移能力，从而评估MLLMs对各种越狱攻击的鲁棒性。实验结果表明，LLM越狱攻击技术对MLLMs具有较高的攻击成功率，这表明MLLMs存在重要的文本处理漏洞。
其它亮点

论文提出了JailBreakV-28K基准测试，包括2000个恶意查询和20000个基于文本的越狱提示以及8000个基于图像的越狱输入，涵盖了各种对抗性场景。通过对10个开源MLLMs的评估，发现它们存在重要的文本处理漏洞。
相关研究

在相关研究方面，最近有一些关于MLLMs安全问题的研究，例如《Adversarial Attacks on Large Language Models》、《Towards Robust and Privacy-preserving Text Representations》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问