Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

简介

本文提出了多种越狱攻击方法来对大型语言模型（LLMs）进行红队测试，并揭示了LLMs的脆弱安全保障。此外，一些方法不仅限于文本模态，还通过扰动视觉输入将越狱攻击扩展到多模态大型语言模型（MLLMs）。然而，缺乏通用的评估基准使性能再现和公平比较变得复杂。此外，缺乏对闭源最先进（SOTA）模型的全面评估，特别是MLLMs，如GPT-4V。为了解决这些问题，本文首先使用1445个有害问题构建了一个全面的越狱评估数据集，涵盖了11种不同的安全策略。基于这个数据集，对11个不同的LLMs和MLLMs进行了广泛的红队实验，包括SOTA专有模型和开源模型。然后对评估结果进行了深入分析，发现（1）与开源LLMs和MLLMs相比，GPT4和GPT-4V表现出更好的越狱攻击鲁棒性。（2）与其他开源模型相比，Llama2和Qwen-VL-Chat更加鲁棒。（3）与文本越狱攻击方法相比，视觉越狱方法的可转移性相对有限。数据集和代码可以在此处找到：https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md。
图表
解决问题

本论文旨在解决大型语言模型（LLMs）和多模态大型语言模型（MLLMs）的越狱攻击问题，并建立一个通用的评估基准，以便进行公平的比较和性能再现。
关键思路

本论文通过构建一个包含11种不同安全策略的综合评估数据集，对11种不同的LLMs和MLLMs进行广泛的越狱实验，并深入分析评估结果，发现GPT4和GPT-4V相对于开源模型更具有鲁棒性，Llama2和Qwen-VL-Chat比其他开源模型更具有鲁棒性，视觉越狱方法的可转移性相对较小。
其它亮点

本论文的亮点包括建立了一个全面的越狱评估数据集，对多个LLMs和MLLMs进行了实验，包括SOTA专有模型和开源模型，发现了不同模型的鲁棒性差异，提供了代码和数据集，为未来研究提供了参考。
相关研究

最近的相关研究包括“TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP”和“Adversarial Attacks on Large Language Models via Gradient-Based Optimization”。

Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

评论