Tree of Attacks: Jailbreaking Black-Box LLMs Automatically

Anay Mehrotra,
Manolis Zampetakis,
Paul Kassianik,
Blaine Nelson,
Hyrum Anderson,
Yaron Singer,
Amin Karbasi
625
热度
ML
AI
NLP
SEC
stat.ML
2023年12月04日
  • 简介
    虽然大型语言模型(LLMs)具有多功能性,但它们仍然会生成有害、有偏见和有毒的内容,正如人类设计的越狱案例所证明的那样。在这项工作中,我们提出了一种名为Tree of Attacks with Pruning(TAP)的自动化方法,用于生成越狱案例,只需要对目标LLM进行黑盒访问。TAP利用LLM通过思考树来迭代地优化候选(攻击)提示,直到生成的提示之一越狱为止。重要的是,在将提示发送到目标之前,TAP会对其进行评估和修剪,以减少不太可能导致越狱的提示数量。使用思考树推理使TAP能够遍历大量提示的搜索空间,而修剪则减少了发送给目标的总查询数量。在实证评估中,我们观察到TAP生成的提示可以越狱最先进的LLMs(包括GPT4和GPT4-Turbo)的超过80%的提示,仅使用少量查询。这显著改进了以前用于生成越狱案例的最先进的黑盒方法。
  • 图表
  • 解决问题
    TAP试图解决的问题是通过黑盒访问目标大型语言模型并生成破解提示,以揭示LLMs生成有害、有偏见和有毒内容的问题。这是否是一个新问题取决于如何定义和看待LLMs的问题。
  • 关键思路
    TAP的关键思路是使用树状思维推理迭代地优化生成的候选提示,直到找到能够破解目标LLM的提示。此外,TAP在将提示发送到目标之前进行评估和修剪,以减少发送到目标的查询数。
  • 其它亮点
    TAP使用黑盒访问目标LLM,生成提示,对提示进行评估和修剪,然后发送到目标以破解LLM。在实验中,TAP成功地破解了GPT-4和GPT-4 Turbo等最先进的LLMs,而且只使用了很少的查询。这项工作揭示了LLMs存在的问题,并为解决这些问题提供了一种新方法。
  • 相关研究
    在最近的相关研究中,也有一些关于LLMs的问题和攻击的研究。例如,有一些研究关注于通过添加噪声或修改输入来提高LLMs的鲁棒性。还有一些研究关注于检测和缓解LLMs中的偏见和歧视。相关的论文包括“Improving Robustness of Large Language Models by Noise Injection”和“Mitigating Unintended Bias in Language Models”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论