SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner

2024年06月08日
  • 简介
    越来越多的黑客攻击绕过了现成的大型语言模型(LLMs)中部署的安全对齐方法,这种攻击被称为越狱攻击(Jailbreaking)。越狱攻击已经发展成了四个主要类型:基于优化的攻击,如贪婪坐标梯度(GCG);基于越狱模板的攻击,如“Do-Anything-Now”;高级间接攻击,如DrAttack;以及多语言越狱。然而,实现一个实用的越狱防御方案具有挑战性,因为它不仅需要处理以上所有越狱攻击,还需要对用户提示造成极小的延迟,并且兼容开源和闭源LLMs。本文受传统安全概念中的阴影栈防御内存溢出攻击的启发,引入了一个通用的LLM越狱防御框架SelfDefend,它建立了一个阴影LLM防御实例,用于同时保护目标LLM实例,并与其协作进行基于检查点的访问控制。SelfDefend的有效性建立在我们的观察基础之上,即现有的LLMs(包括目标和防御LLMs)具有识别用户查询中有害提示或意图的能力,我们使用常用的GPT-3.5/4模型在所有主要越狱攻击中进行了实证验证。我们的测量结果表明,SelfDefend使GPT-3.5的攻击成功率(ASR)下降了8.97-95.74%(平均值为60%),GPT-4的ASR甚至下降了36.36-100%(平均值为83%),同时对正常查询的影响微乎其微。为了进一步提高防御的鲁棒性并降低成本,我们采用数据精馏方法来调整专门的开源防御模型。这些模型优于四个SOTA防御,并与基于GPT-4的SelfDefend的性能相当,额外延迟显著较低。我们还实证表明,这些调整后的模型对有针对性的GCG和提示注入攻击具有鲁棒性。
  • 图表
  • 解决问题
    解决LLM jailbreak攻击的问题,需要一个实用的防御框架,能够同时处理各种攻击类型,且对用户提示的延迟要极小。
  • 关键思路
    通过建立一个影子LLM实例来同时保护目标LLM实例,实现基于检查点的访问控制,并且利用数据蒸馏方法优化开源防御模型,提高防御效果和鲁棒性。
  • 其它亮点
    论文提出的SelfDefend框架能够有效抵抗各种LLM jailbreak攻击,对GPT-3.5/4模型的攻击成功率平均降低60%-83%,且对正常查询的影响极小。同时使用数据蒸馏方法优化开源防御模型,提高了防御效果和鲁棒性。
  • 相关研究
    相关研究包括:Greedy Coordinate Gradient (GCG)攻击、DrAttack攻击、多语言LLM jailbreak攻击等。此外,论文还对比了四种SOTA防御模型的效果。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论