Best-of-N Jailbreaking

2024年12月04日
  • 简介
    我们介绍了Best-of-N (BoN) 越狱技术,这是一种简单的黑盒算法,能够在多种模态下越狱前沿的人工智能系统。BoN 越狱技术通过反复采样提示的不同变体,并结合各种增强方法(例如文本提示中的随机洗牌或大写)来实现,直到引发有害响应为止。我们发现,BoN 越狱技术在闭源语言模型上取得了很高的攻击成功率(ASR),例如,在采样10,000个增强提示时,GPT-4o的攻击成功率为89%,Claude 3.5 Sonnet的攻击成功率为78%。此外,它同样能够有效绕过最先进的开源防御措施,如断路器。BoN 还可以无缝扩展到其他模态:它可以通过特定模态的增强方法越狱视觉语言模型(VLMs)如GPT-4o和音频语言模型(ALMs)如Gemini 1.5 Pro。当采样更多的增强提示时,BoN 的性能会更加可靠。在所有模态中,攻击成功率(ASR)与样本数量(N)的关系在多个数量级上呈现出幂律行为。BoN 越狱技术还可以与其他黑盒算法组合使用,以实现更有效的攻击——将BoN与优化前缀攻击结合使用,可使攻击成功率提高多达35%。总体而言,我们的研究结果表明,尽管语言模型具有强大的能力,但它们对输入中的看似无害的变化非常敏感,攻击者可以在多种模态下利用这一点。
  • 图表
  • 解决问题
    该论文旨在探讨如何通过Best-of-N (BoN) Jailbreaking算法,对封闭源代码的语言模型以及其他模态的AI系统进行攻击,以突破其安全防护机制,生成有害响应。这是一个新的问题,因为以往的研究主要集中在文本模态,而本研究扩展到了视觉和音频模态。
  • 关键思路
    论文的关键思路是通过大量采样输入的变体(如随机打乱、改变大小写等),直到模型产生有害响应。这种方法不仅适用于文本模态,还扩展到了视觉语言模型和音频语言模型。与现有的攻击方法相比,BoN Jailbreaking能够有效绕过最新的开放源码防御机制,并且随着样本数量的增加,攻击成功率呈幂律增长。
  • 其它亮点
    论文展示了BoN Jailbreaking在多种模态下的高攻击成功率,特别是在GPT-4o和Claude 3.5 Sonnet上的表现尤为突出。此外,论文还提出了将BoN Jailbreaking与其他黑盒攻击方法结合,进一步提高攻击效果。实验设计包括了大量样本的采样和多种模态的测试,使用了多个知名的数据集。论文没有提到开源代码,但指出了一些值得继续研究的方向,如探索更有效的采样策略和防御机制。
  • 相关研究
    近期在这个领域中,还有一些相关的研究,例如《Evaluating and Mitigating Adversarial Attacks on Vision-Language Models》、《Adversarial Examples in Deep Learning: An Overview》和《Defending Against Adversarial Attacks on Language Models》。这些研究主要集中在对抗性攻击的评估和防御,而本论文则提供了一种新的攻击方法,为防御机制的设计提供了新的挑战和思路。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论