EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models

简介

破解攻击对于识别和减轻大型语言模型（LLM）的安全漏洞至关重要。它们旨在绕过保护措施并引发被禁止的输出。然而，由于各种破解方法之间存在显着差异，因此社区中没有可用于标准实施框架，这限制了全面的安全评估。本文介绍了EasyJailbreak，这是一个统一的框架，简化了针对LLM的破解攻击的构建和评估。它使用四个组件构建破解攻击：选择器、变异器、约束和评估器。这个模块化框架使研究人员可以轻松地从新颖和现有组件的组合中构建攻击。到目前为止，EasyJailbreak支持11种不同的破解方法，并促进了广泛范围的LLM的安全验证。我们在10个不同的LLM上进行验证，发现存在显著的漏洞，各种破解攻击的平均侵犯概率为60%。值得注意的是，即使是像GPT-3.5-Turbo和GPT-4这样的先进模型，其平均攻击成功率（ASR）也分别为57%和33%。我们为研究人员发布了丰富的资源，包括Web平台、PyPI发布的软件包、屏幕录像和实验输出。
图表
解决问题

EasyJailbreak: 一个用于构建和评估大型语言模型（LLMs）的越狱攻击的统一框架
关键思路

EasyJailbreak是一个模块化的框架，通过四个组件（Selector、Mutator、Constraint和Evaluator）构建越狱攻击，支持11种不同的越狱方法，能够简化LLMs的安全评估。
其它亮点

EasyJailbreak的实验结果显示，10个不同的LLMs存在显著的安全漏洞，平均突破概率为60％。该框架提供了丰富的资源，包括Web平台、PyPI发布的包、演示视频和实验输出。
相关研究

与此相关的研究包括对LLMs安全性的评估和攻击方法的研究，如Jin等人的“Is BERT Really Robust? Natural Language Attack on Text Classification and Entailment”和Wallace等人的“Universal Adversarial Triggers for Attacking and Analyzing NLP”。

EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models

评论