Jailbreaking Large Language Models Against Moderation Guardrails via Cipher Characters

简介

大型语言模型（LLMs）通常是无害的，但仍然容易受到精心设计的提示，即“越狱”，这些提示可以绕过保护措施并引发有害行为。LLMs的最新进展已经包含了可以过滤输出的审查防护栏，对某些恶意问题触发处理错误。现有的红队评估基准往往忽略了触发审查防护栏的问题，这使得评估越狱有效性变得困难。为了解决这个问题，我们介绍了JAMBench，这是一个设计用于触发和评估审查防护栏的有害行为基准。JAMBench涉及160个手动制作的指令，涵盖了四个主要风险类别和多个严重程度级别。此外，我们提出了一种越狱方法，JAM（针对审查的越狱），旨在使用越狱前缀攻击审查防护栏，以绕过输入级过滤器，并使用与防护栏模型功能等效的微调阴影模型生成密码字符，以绕过输出级过滤器。我们对四个LLMs进行了广泛的实验，结果表明，JAM的越狱成功率比基线高（约为19.88倍），过滤率低（约为1/6倍）。
图表
解决问题

本论文旨在解决大型语言模型（LLMs）中存在的安全问题，即如何绕过保护措施并诱发有害行为。同时，论文提出了一个新的基准测试集JAMBench，用于评估模型的防护能力。
关键思路

论文提出了一种名为JAM的新的破解方法，旨在攻击模型的防护措施。JAM通过使用破解前缀绕过输入级别的过滤器，并使用一个经过微调的影子模型生成密码字符以绕过输出级别的过滤器。实验结果表明，JAM比基线方法具有更高的破解成功率和更低的过滤率。
其它亮点

JAMBench是一个包含160个手动制作的指令的基准测试集，涵盖了四个主要的风险类别。实验使用了四个LLMs进行测试，并展示了JAM方法的有效性。论文还提到了一些未来工作的方向，如如何进一步提高模型的防护能力。
相关研究

近期的相关研究包括使用不同的技术来提高LLMs的安全性，如使用对抗训练和加噪声的方法。相关论文包括“Improving Robustness of Large-Scale Language Models Against Adversarial Attacks”和“Adversarial Training for Large Neural Language Models”。

Jailbreaking Large Language Models Against Moderation Guardrails via Cipher Characters

评论