Tree of Attacks: Jailbreaking Black-Box LLMs Automatically

简介

虽然大型语言模型（LLMs）具有多功能性，但它们仍然会生成有害、有偏见和有毒的内容，正如人类设计的越狱案例所证明的那样。在这项工作中，我们提出了一种名为Tree of Attacks with Pruning（TAP）的自动化方法，用于生成越狱案例，只需要对目标LLM进行黑盒访问。TAP利用LLM通过思考树来迭代地优化候选（攻击）提示，直到生成的提示之一越狱为止。重要的是，在将提示发送到目标之前，TAP会对其进行评估和修剪，以减少不太可能导致越狱的提示数量。使用思考树推理使TAP能够遍历大量提示的搜索空间，而修剪则减少了发送给目标的总查询数量。在实证评估中，我们观察到TAP生成的提示可以越狱最先进的LLMs（包括GPT4和GPT4-Turbo）的超过80％的提示，仅使用少量查询。这显著改进了以前用于生成越狱案例的最先进的黑盒方法。
图表
解决问题

TAP试图解决的问题是通过黑盒访问目标大型语言模型并生成破解提示，以揭示LLMs生成有害、有偏见和有毒内容的问题。这是否是一个新问题取决于如何定义和看待LLMs的问题。
关键思路

TAP的关键思路是使用树状思维推理迭代地优化生成的候选提示，直到找到能够破解目标LLM的提示。此外，TAP在将提示发送到目标之前进行评估和修剪，以减少发送到目标的查询数。
其它亮点

TAP使用黑盒访问目标LLM，生成提示，对提示进行评估和修剪，然后发送到目标以破解LLM。在实验中，TAP成功地破解了GPT-4和GPT-4 Turbo等最先进的LLMs，而且只使用了很少的查询。这项工作揭示了LLMs存在的问题，并为解决这些问题提供了一种新方法。
相关研究

在最近的相关研究中，也有一些关于LLMs的问题和攻击的研究。例如，有一些研究关注于通过添加噪声或修改输入来提高LLMs的鲁棒性。还有一些研究关注于检测和缓解LLMs中的偏见和歧视。相关的论文包括“Improving Robustness of Large Language Models by Noise Injection”和“Mitigating Unintended Bias in Language Models”。

Tree of Attacks: Jailbreaking Black-Box LLMs Automatically

评论