SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner

简介

越来越多的黑客攻击绕过了现成的大型语言模型（LLMs）中部署的安全对齐方法，这种攻击被称为越狱攻击（Jailbreaking）。越狱攻击已经发展成了四个主要类型：基于优化的攻击，如贪婪坐标梯度（GCG）；基于越狱模板的攻击，如“Do-Anything-Now”；高级间接攻击，如DrAttack；以及多语言越狱。然而，实现一个实用的越狱防御方案具有挑战性，因为它不仅需要处理以上所有越狱攻击，还需要对用户提示造成极小的延迟，并且兼容开源和闭源LLMs。本文受传统安全概念中的阴影栈防御内存溢出攻击的启发，引入了一个通用的LLM越狱防御框架SelfDefend，它建立了一个阴影LLM防御实例，用于同时保护目标LLM实例，并与其协作进行基于检查点的访问控制。SelfDefend的有效性建立在我们的观察基础之上，即现有的LLMs（包括目标和防御LLMs）具有识别用户查询中有害提示或意图的能力，我们使用常用的GPT-3.5/4模型在所有主要越狱攻击中进行了实证验证。我们的测量结果表明，SelfDefend使GPT-3.5的攻击成功率（ASR）下降了8.97-95.74%（平均值为60%），GPT-4的ASR甚至下降了36.36-100%（平均值为83%），同时对正常查询的影响微乎其微。为了进一步提高防御的鲁棒性并降低成本，我们采用数据精馏方法来调整专门的开源防御模型。这些模型优于四个SOTA防御，并与基于GPT-4的SelfDefend的性能相当，额外延迟显著较低。我们还实证表明，这些调整后的模型对有针对性的GCG和提示注入攻击具有鲁棒性。

图表

解决问题

解决LLM jailbreak攻击的问题，需要一个实用的防御框架，能够同时处理各种攻击类型，且对用户提示的延迟要极小。

关键思路

通过建立一个影子LLM实例来同时保护目标LLM实例，实现基于检查点的访问控制，并且利用数据蒸馏方法优化开源防御模型，提高防御效果和鲁棒性。

其它亮点

论文提出的SelfDefend框架能够有效抵抗各种LLM jailbreak攻击，对GPT-3.5/4模型的攻击成功率平均降低60%-83%，且对正常查询的影响极小。同时使用数据蒸馏方法优化开源防御模型，提高了防御效果和鲁棒性。

SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner

评论