Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

2024年04月04日
  • 简介
    本文提出了多种越狱攻击方法来对大型语言模型(LLMs)进行红队测试,并揭示了LLMs的脆弱安全保障。此外,一些方法不仅限于文本模态,还通过扰动视觉输入将越狱攻击扩展到多模态大型语言模型(MLLMs)。然而,缺乏通用的评估基准使性能再现和公平比较变得复杂。此外,缺乏对闭源最先进(SOTA)模型的全面评估,特别是MLLMs,如GPT-4V。为了解决这些问题,本文首先使用1445个有害问题构建了一个全面的越狱评估数据集,涵盖了11种不同的安全策略。基于这个数据集,对11个不同的LLMs和MLLMs进行了广泛的红队实验,包括SOTA专有模型和开源模型。然后对评估结果进行了深入分析,发现(1)与开源LLMs和MLLMs相比,GPT4和GPT-4V表现出更好的越狱攻击鲁棒性。(2)与其他开源模型相比,Llama2和Qwen-VL-Chat更加鲁棒。(3)与文本越狱攻击方法相比,视觉越狱方法的可转移性相对有限。数据集和代码可以在此处找到:https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md。
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的越狱攻击问题,并建立一个通用的评估基准,以便进行公平的比较和性能再现。
  • 关键思路
    本论文通过构建一个包含11种不同安全策略的综合评估数据集,对11种不同的LLMs和MLLMs进行广泛的越狱实验,并深入分析评估结果,发现GPT4和GPT-4V相对于开源模型更具有鲁棒性,Llama2和Qwen-VL-Chat比其他开源模型更具有鲁棒性,视觉越狱方法的可转移性相对较小。
  • 其它亮点
    本论文的亮点包括建立了一个全面的越狱评估数据集,对多个LLMs和MLLMs进行了实验,包括SOTA专有模型和开源模型,发现了不同模型的鲁棒性差异,提供了代码和数据集,为未来研究提供了参考。
  • 相关研究
    最近的相关研究包括“TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP”和“Adversarial Attacks on Large Language Models via Gradient-Based Optimization”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论