- 简介我们展示了即使是最近的安全对齐LLM也无法抵御简单的自适应越狱攻击。首先,我们展示了如何成功利用访问对数概率来进行越狱攻击:我们最初设计了一个对抗性提示模板(有时会根据目标LLM进行调整),然后我们对后缀进行随机搜索以最大化目标对数概率(例如“Sure”令牌的概率),可能会进行多次重启。通过这种方式,我们在GPT-3.5/4、Llama-2-Chat-7B/13B/70B、Gemma-7B和针对GCG攻击进行了对抗性训练的HarmBench中的R2D2上,根据GPT-4的判断,实现了近乎100%的攻击成功率。我们还展示了如何通过转移攻击或预填充攻击以100%的成功率越狱所有不公开对数概率的Claude模型。此外,我们展示了如何在受污染的模型中使用受限制的令牌随机搜索来查找特洛伊字符串,这个任务与越狱攻击有许多相似之处,这也是我们在SaTML'24特洛伊检测竞赛中获得第一名的算法。这些攻击背后的共同主题是适应性至关重要:不同的模型对不同的提示模板(例如,R2D2对上下文学习提示非常敏感)易受攻击,一些模型基于其API具有独特的漏洞(例如,Claude的预填充攻击),在某些情况下,基于先前的知识限制令牌搜索空间非常重要(例如,用于特洛伊检测)。我们在https://github.com/tml-epfl/llm-adaptive-attacks上提供了攻击的代码、提示和日志。
- 图表
- 解决问题本论文旨在研究最新的安全对齐LLMs是否能够抵御简单的自适应越狱攻击,并提出相应的解决方案。
- 关键思路论文提出了一种自适应攻击方法,通过对后缀进行随机搜索来最大化目标日志概率,从而越狱成功率接近100%。针对不同模型的不同漏洞,提出了不同的攻击策略。
- 其它亮点论文提供了越狱攻击的代码、提示和日志,并介绍了如何通过转移攻击或预填充攻击来越狱Claude模型。实验使用了多个数据集,包括GPT-3.5/4、Llama-2-Chat-7B/13B/70B、Gemma-7B和HarmBench等。论文还介绍了如何在受污染的模型中使用随机搜索来查找特洛伊木马字符串。
- 最近的相关研究包括《Adversarial Attacks on Neural Networks for Graph Data: A Survey》、《Adversarial Attacks and Defenses in Images, Graphs and Text: A Review》等。
沙发等你来抢
去评论
评论
沙发等你来抢