AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

简介

最近，大型语言模型（LLMs）取得了显著的成功，但它们容易受到某些越狱攻击的影响，导致生成不适当或有害内容。手动红队测试需要找到导致越狱的对抗性提示，例如在给定指令后添加后缀，这是低效且耗时的。另一方面，自动对抗提示生成通常会导致语义上无意义的攻击，易于被基于困惑度的过滤器检测到，可能需要来自TargetLLM的梯度信息，或由于在标记空间上耗时的离散优化过程而无法很好地扩展。在本文中，我们提出了一种新方法，使用另一个称为AdvPrompter的LLM，在几秒钟内生成可读的对抗提示，比现有的基于优化的方法快约800倍。我们使用一种新算法训练AdvPrompter，该算法不需要访问TargetLLM的梯度。该过程交替进行两个步骤：（1）通过优化AdvPrompter的预测生成高质量的目标对抗后缀，（2）使用生成的对抗后缀对AdvPrompter进行低秩微调。经过训练的AdvPrompter生成的后缀掩盖了输入指令而不改变其含义，从而引诱TargetLLM给出有害响应。对流行的开源TargetLLMs的实验结果显示，在AdvBench数据集上具有最先进的结果，这些结果还转移到了封闭的黑盒LLM API。此外，我们证明通过在AdvPrompter生成的合成数据集上进行微调，可以使LLMs更加强大，抵御越狱攻击，同时保持性能，即高MMLU得分。
图表
解决问题

解决问题的是如何生成人类可读的对抗提示，以使LLM产生不良响应
关键思路

使用另一个LLM（AdvPrompter）来生成对抗提示，该方法比现有的基于优化的方法快800倍，而且不需要访问目标LLM的梯度
其它亮点

论文提出了一种新方法来生成对抗提示，它比以前的方法更快，更有效，实验结果表明，该方法可以在多个开源和闭源LLM上产生最先进的结果，同时保持高的性能和鲁棒性
相关研究

最近的相关研究主要集中在使用不同的技术生成对抗提示，如基于梯度的方法和基于优化的方法，例如Perturbation-based methods for generating adversarial examples，Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

评论