AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

Anselm Paulus,
Arman Zharmagambetov,
Chuan Guo,
Brandon Amos,
Yuandong Tian
299
热度
SEC
AI
NLP
ML
2024年04月21日
  • 简介
    最近,大型语言模型(LLMs)取得了显著的成功,但它们容易受到某些越狱攻击的影响,导致生成不适当或有害内容。手动红队测试需要找到导致越狱的对抗性提示,例如在给定指令后添加后缀,这是低效且耗时的。另一方面,自动对抗提示生成通常会导致语义上无意义的攻击,易于被基于困惑度的过滤器检测到,可能需要来自TargetLLM的梯度信息,或由于在标记空间上耗时的离散优化过程而无法很好地扩展。在本文中,我们提出了一种新方法,使用另一个称为AdvPrompter的LLM,在几秒钟内生成可读的对抗提示,比现有的基于优化的方法快约800倍。我们使用一种新算法训练AdvPrompter,该算法不需要访问TargetLLM的梯度。该过程交替进行两个步骤:(1)通过优化AdvPrompter的预测生成高质量的目标对抗后缀,(2)使用生成的对抗后缀对AdvPrompter进行低秩微调。经过训练的AdvPrompter生成的后缀掩盖了输入指令而不改变其含义,从而引诱TargetLLM给出有害响应。对流行的开源TargetLLMs的实验结果显示,在AdvBench数据集上具有最先进的结果,这些结果还转移到了封闭的黑盒LLM API。此外,我们证明通过在AdvPrompter生成的合成数据集上进行微调,可以使LLMs更加强大,抵御越狱攻击,同时保持性能,即高MMLU得分。
  • 图表
  • 解决问题
    解决问题的是如何生成人类可读的对抗提示,以使LLM产生不良响应
  • 关键思路
    使用另一个LLM(AdvPrompter)来生成对抗提示,该方法比现有的基于优化的方法快800倍,而且不需要访问目标LLM的梯度
  • 其它亮点
    论文提出了一种新方法来生成对抗提示,它比以前的方法更快,更有效,实验结果表明,该方法可以在多个开源和闭源LLM上产生最先进的结果,同时保持高的性能和鲁棒性
  • 相关研究
    最近的相关研究主要集中在使用不同的技术生成对抗提示,如基于梯度的方法和基于优化的方法,例如Perturbation-based methods for generating adversarial examples,Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论