- 简介本文提出了多种越狱攻击方法来对大型语言模型(LLMs)进行红队测试,并揭示了LLMs的脆弱安全保障。此外,一些方法不仅限于文本模态,还通过扰动视觉输入将越狱攻击扩展到多模态大型语言模型(MLLMs)。然而,缺乏通用的评估基准使性能再现和公平比较变得复杂。此外,缺乏对闭源最先进(SOTA)模型的全面评估,特别是MLLMs,如GPT-4V。为了解决这些问题,本文首先使用1445个有害问题构建了一个全面的越狱评估数据集,涵盖了11种不同的安全策略。基于这个数据集,对11个不同的LLMs和MLLMs进行了广泛的红队实验,包括SOTA专有模型和开源模型。然后对评估结果进行了深入分析,发现(1)与开源LLMs和MLLMs相比,GPT4和GPT-4V表现出更好的越狱攻击鲁棒性。(2)与其他开源模型相比,Llama2和Qwen-VL-Chat更加鲁棒。(3)与文本越狱攻击方法相比,视觉越狱方法的可转移性相对有限。数据集和代码可以在此处找到:https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md。
- 图表
- 解决问题本论文旨在解决大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的越狱攻击问题,并建立一个通用的评估基准,以便进行公平的比较和性能再现。
- 关键思路本论文通过构建一个包含11种不同安全策略的综合评估数据集,对11种不同的LLMs和MLLMs进行广泛的越狱实验,并深入分析评估结果,发现GPT4和GPT-4V相对于开源模型更具有鲁棒性,Llama2和Qwen-VL-Chat比其他开源模型更具有鲁棒性,视觉越狱方法的可转移性相对较小。
- 其它亮点本论文的亮点包括建立了一个全面的越狱评估数据集,对多个LLMs和MLLMs进行了实验,包括SOTA专有模型和开源模型,发现了不同模型的鲁棒性差异,提供了代码和数据集,为未来研究提供了参考。
- 最近的相关研究包括“TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP”和“Adversarial Attacks on Large Language Models via Gradient-Based Optimization”。
沙发等你来抢
去评论
评论
沙发等你来抢