Universal and Transferable Adversarial Attacks on Aligned Language Models
CMU和人工智能安全中心的研究人员发现,只要通过附加一系列特定的无意义token,就能生成一个神秘的prompt后缀。由此,任何人都可以轻松破解LLM的安全措施,生成无限量的有害内容。
英伟达首席AI科学家Jim Fan解答了这种对抗性攻击的原理——
对于像Vicuna这样的OSS模型,通过它执行一个梯度下降的变体,来计算出最大化不对齐模型的后缀。
为了让「咒语」普遍适用,只需要优化不同prompt和模型的损失即可。然后研究者针对Vicuna的不同变体优化了对抗token。可以将其视为从「LLM 模型空间」中抽取了一小批模型。
解决问题:本篇论文旨在探讨如何对齐的语言模型进行通用且可转移的对抗攻击,以引发模型生成不当行为。这个问题在当前领域中并不新,但是本文提出的解决方案具有一定的创新性。
关键思路:本文提出了一种简单有效的攻击方法,通过贪心和梯度搜索技术自动产生对抗性后缀,使得对齐语言模型生成不当行为的概率最大化。值得注意的是,本文的攻击后缀具有很强的可转移性,不仅可以攻击公开的模型,还可以攻击黑盒模型。
其他亮点:本文的实验设计比较完备,使用了多个数据集和多个模型进行测试,并开源了代码。这篇论文的亮点在于提出了一种自动化生成对抗性后缀的方法,并且证明了这种方法的可转移性。未来可以进一步研究如何防止语言模型产生不当行为。
论文地址:https://arxiv.org/abs/2307.15043
代码地址:https://github.com/llm-attacks/llm-attacks
关于作者:Andy Zou, Zifan Wang, J. Zico Kolter, Matt Fredrikson
Carnegie Mellon University, Center for AI Safety, Bosch Center for AI
Andy Zou是CMU计算机科学系的一名一年级博士生,导师是Zico Kolter和Matt Fredrikson。此前,他在UC伯克利获得了硕士和学士学位,导师是Dawn Song和Jacob Steinhardt。
Zifan Wang目前是CAIS的研究工程师,研究方向是深度神经网络的可解释性和稳健性。他在CMU得了电气与计算机工程硕士学位,并在随后获得了博士学位,导师是Anupam Datta教授和Matt Fredrikson教授。在此之前,他在北京理工大学获得了电子科学与技术学士学位。
Zico Kolter是CMU计算机科学系的副教授,同时也担任博世人工智能中心的AI研究首席科学家。曾获得DARPA青年教师奖、斯隆奖学金以及NeurIPS、ICML(荣誉提名)、IJCAI、KDD和PESGM的最佳论文奖。
他的工作重点是机器学习、优化和控制领域,主要目标是使深度学习算法更安全、更稳健和更可解释。为此,团队已经研究了一些可证明稳健的深度学习系统的方法,并在深度架构的循环中加入了更复杂的「模块」(如优化求解器)。
Matt Fredrikson是CMU计算机科学系和软件研究所的副教授,也是CyLab和编程原理小组的成员。他的研究领域包括安全与隐私、公平可信的人工智能和形式化方法,目前正致力于研究数据驱动系统中可能出现的独特问题。这些系统往往对终端用户和数据主体的隐私构成风险,在不知不觉中引入新形式的歧视,或者在对抗性环境中危及安全。他的目标是在危害发生之前,找到在真实、具体的系统中识别这些问题,以及构建新系统的方法。
相关研究:近期其他相关的研究包括《Adversarial Attacks on Large Language Models via Grammatical Errors》(作者:Jinfeng Li,来自斯坦福大学)和《Adversarial Attacks on Neural Language Models with Hard Decoding Problems》(作者:Xiaoyang Wang,来自麻省理工学院)。
论文摘要:由于“开箱即用”的大型语言模型能够生成大量令人反感的内容,因此最近的研究集中在对齐这些模型,试图防止不良生成。虽然已经有一些成功地规避这些措施的方法——所谓的针对LLM的“越狱”,但这些攻击需要人类的巨大创造力,在实践中是脆弱的。在本文中,我们提出了一种简单而有效的攻击方法,使对齐的语言模型生成令人反感的行为。具体而言,我们的方法找到一个后缀,当附加到LLM的广泛查询中以产生令人反感的内容时,旨在最大化模型产生肯定回答(而不是拒绝回答)的概率。
然而,我们的方法不依赖于手动工程,而是通过贪婪和基于梯度的搜索技术自动产生这些对抗性后缀,并且改进了过去的自动提示生成方法。令人惊讶的是,我们发现我们的方法生成的对抗提示是相当可转移的,包括对黑盒、公开发布的LLM。
具体而言,我们在多个提示(即询问多种不良内容的查询)和多个模型(在我们的情况下,Vicuna-7B和13B)上训练对抗性攻击后缀。在这样做时,所得到的攻击后缀能够在ChatGPT、Bard和Claude的公共接口,以及开源LLM(如LLaMA-2-Chat、Pythia、Falcon等)中引发令人反感的内容。总的来说,这项工作显著地推进了针对对齐语言模型的对抗性攻击的最新技术,引发了如何防止这些系统生成不良信息的重要问题。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢