Backdoor Activation Attack: Attack Large Language Models using Activation Steering for Safety-Alignment

2023年11月15日
  • 简介
    为确保人工智能的安全性,指令调整的大型语言模型(LLM)是专门训练的,以确保模型与人类意图一致。虽然这些模型在各种安全基准测试中表现出了令人钦佩的结果,但它们的安全一致性的脆弱性并没有得到广泛研究。考虑到LLM可能造成的潜在危害,这尤其令人不安。现有的LLM攻击方法通常依赖于有毒的训练数据或恶意提示的注入。这些方法会损害攻击的隐蔽性和通用性,使其容易被检测到。此外,这些模型通常需要大量的计算资源来实现,使它们在实际应用中不太实用。在本研究中,我们介绍了一种新的攻击框架,称为后门激活攻击,它将特洛伊木马操纵向量注入到LLM的激活层中。这些恶意操纵向量可以在推理时被触发,通过操纵它们的激活来将模型引导向攻击者所需的行为。特别地,操纵向量是通过取良性和恶意激活之间的差异生成的。然后,选择最有效的操纵向量并将其添加到LLM的前向传递中。我们在四个主要的对齐任务上的实验结果表明,我们提出的方法非常有效,并且几乎不会增加攻击效率。此外,我们讨论了针对此类激活攻击的潜在对策。我们的代码和数据可在https://email-haoran-for-link获得。警告:本文包含可能令人不安或冒犯的内容。
  • 作者讲解
  • 图表
  • 解决问题
    本文试图解决LLMs在安全对齐方面的脆弱性问题,提出了一种新的攻击框架Backdoor Activation Attack。
  • 关键思路
    Backdoor Activation Attack通过在LLMs的激活层中注入恶意转向向量,来操纵模型的激活并引导其产生攻击者所期望的行为。
  • 其它亮点
    本文提出的攻击方法在四个主要的对齐任务上表现出了高度的有效性,并且对攻击效率几乎没有额外开销。此外,本文还讨论了一些可能的对抗措施。作者提供了代码和数据。
  • 相关研究
    最近的相关研究包括使用恶意提示和注入有毒训练数据的攻击方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问