Fast Adversarial Attacks on Language Models In One GPU Minute

Vinu Sankar Sadasivan ,
Shoumik Saha ,
Gaurang Sriramanan ,
Priyatham Kattakinda ,
Atoosa Chegini ,
Soheil Feizi
2024年02月23日
  • 简介
    本文介绍了一种新型的基于快速束搜索的语言模型(LM)对抗攻击——BEAST。BEAST采用可解释的参数,使攻击者可以在攻击速度、成功率和对抗提示的可读性之间取得平衡。BEAST的计算效率使我们能够探索其在破解、引发幻觉和隐私攻击等方面的应用。我们的无梯度定向攻击可以在一分钟内高攻击成功率地破解对齐的LM。例如,BEAST可以在一分钟内破解Vicuna-7B-v1.5,成功率为89%,而梯度基线需要一个多小时,在使用单个Nvidia RTX A6000 48GB GPU时才能达到70%的成功率。此外,我们还发现一种独特的结果,即我们的非定向攻击会导致LM聊天机器人产生幻觉。通过人类评估,我们发现我们的非定向攻击会使Vicuna-7B-v1.5产生约15%的错误输出,与没有攻击时的LM输出相比。我们还了解到,BEAST会导致Vicuna 22%的时间生成与原始提示不相关的输出。此外,我们使用BEAST在几秒钟内生成对抗性提示,可以提高现有的LM成员推断攻击的性能。我们相信,我们的快速攻击BEAST具有加速LM安全和隐私研究的潜力。我们的代码库公开在https://github.com/vinusankars/BEAST。
  • 图表
  • 解决问题
    介绍了一种新的快速、基于束搜索的语言模型对抗攻击方法(BEAST),旨在探究其在监狱破解、诱导幻觉和隐私攻击等方面的应用。
  • 关键思路
    BEAST采用可解释的参数,使攻击者能够在攻击速度、成功率和对抗提示的可读性之间取得平衡,进而实现高效的梯度-free 目标攻击。
  • 其它亮点
    BEAST能够在一分钟内以高攻击成功率破解对齐的语言模型,相比于梯度下降方法,BEAST更快更有效。此外,BEAST还能够诱导语言模型产生幻觉,同时在几秒钟内生成对抗提示,提高现有成员推理攻击的性能。研究人员已经开源了代码库。
  • 相关研究
    与该论文相关的研究包括:《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Adversarial Attacks on Neural Networks for Graph Data》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论