Improved Generation of Adversarial Examples Against Safety-aligned LLMs

简介

尽管已经做出了许多努力来确保大型语言模型（LLMs）符合安全标准并产生无害内容，但是一些绕过这些限制的成功案例，即针对LLMs的越狱攻击，已经出现。使用基于梯度的方法生成的对抗性提示在自动执行越狱攻击方面表现出色。然而，由于文本的离散性质，LLMs的输入梯度难以精确反映提示中标记替换所导致的损失变化的大小，导致针对安全对齐的LLMs的攻击成功率有限，即使在白盒设置下也是如此。在本文中，我们探讨了这个问题的一个新视角，认为可以通过利用最初用于攻击黑盒图像分类模型的转移攻击中启发式的创新来缓解这个问题。我们首次采用了这些转移攻击中的有效方法的思想，即跳跃梯度方法和中间层攻击，以提高针对白盒LLMs自动生成的对抗性示例的效果。通过适当的改进，我们将这些思想注入到基于梯度的对抗提示生成过程中，并在不引入明显的计算成本的情况下实现了显著的性能提升。同时，通过讨论背后的机制，得出了新的见解，并开发了适当的方法组合。我们的实证结果表明，与GCG相比，我们开发的组合在攻击AdvBench上的Llama-2-7B-Chat模型时攻击成功率的绝对增长率高达30%。
图表
解决问题

论文旨在解决大语言模型的越狱攻击问题，通过借鉴黑盒攻击模型的思想，提出一种新的方法来改进白盒攻击模型的效果。
关键思路

论文提出了借鉴黑盒攻击模型中Skip Gradient Method和Intermediate Level Attack的思想，用于改进白盒攻击模型的效果，从而提高大语言模型的安全性。
其它亮点

论文通过实验验证了所提出方法的有效性，相比现有的方法，在攻击Llama-2-7B-Chat模型时，攻击成功率提高了30%以上。论文使用了AdvBench数据集，并提供了开源代码。
相关研究

最近相关研究包括：Adversarial Attacks on Large Language Models via Structured Perturbations (2021)，Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency (2021)等。

Improved Generation of Adversarial Examples Against Safety-aligned LLMs

评论