Improved Few-Shot Jailbreaking Can Circumvent Aligned Language Models and Their Defenses

2024年06月03日
  • 简介
    最近,Anil等人(2024年)表明,通过利用长上下文能力,许多演示(多达数百个)可以越狱最先进的LLM。然而,是否可能使用少量演示来有效地越狱有限上下文大小的LLM?虽然普通的少量演示越狱可能效率低下,但我们提出了改进的技术,例如注入特殊的系统令牌(如[/ INST])和使用来自收集的演示池的演示级随机搜索。这些简单的技术对齐的LLM(即使具有先进的防御措施)产生了出乎意料的有效越狱。例如,我们的方法在没有多次重启的情况下在Llama-2-7B和Llama-3-8B上实现了> 80%(大多数> 95%)的ASR,即使模型被强大的防御措施(如困惑度检测和/或SmoothLLM)增强,这对于基于后缀的越狱来说是具有挑战性的。此外,我们还对其他齐次LLM和先进的防御措施进行了全面而详细的评估(例如,确保使用正确的系统提示),在这些评估中,我们的方法始终实现了近100%的ASR。我们的代码可在https://github.com/sail-sg/I-FSJ上获得。
  • 图表
  • 解决问题
    本论文旨在探索使用少量示范来有效地破解LLMs,并测试这种方法对于不同类型的LLMs和防御措施的有效性。
  • 关键思路
    本文提出了使用注入特殊系统令牌和从收集的示范池中进行演示级别的随机搜索等改进技术,以有效地破解LLMs。这些简单的技术在对齐的LLMs上表现出惊人的效果,甚至在使用高级防御措施的情况下也可以达到高精度。与基于后缀的破解相比,这种方法具有更好的性能。
  • 其它亮点
    本文的实验设计非常全面和精细,使用了多个数据集和不同类型的LLMs和防御措施。作者提出的改进技术在对齐的LLMs上表现出惊人的效果,并且代码已经开源。这项工作可以为研究人员提供一种新的破解LLMs的思路。
  • 相关研究
    最近的相关研究包括Anil等人的多样本破解方法,以及其他使用少量示范进行破解的工作,如Few-Shot Slot Tagging with Collapsed Dependency Transfer and Label-Relaxation Decoding。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论