Securing Multi-turn Conversational Language Models Against Distributed Backdoor Triggers

2024年07月04日
  • 简介
    多轮对话大型语言模型的安全性鲜有研究,尽管它是最受欢迎的语言模型之一。具体而言,LLM容易受到数据污染后门攻击的攻击,其中对手操纵训练数据以使模型对预定义触发器输出恶意响应。针对多轮对话设置,LLM甚至面临更具破坏性和隐蔽性的后门攻击,其中后门触发器可能跨越多个话语,给上下文驱动的攻击留下了空间。本文探讨了一种新颖的分布式后门触发器攻击,它是对手工具箱中的另一个工具,可以以插入式方式与其他单轮攻击策略交互。两个代表性防御机制的结果表明,分布式后门触发器对现有为单轮用户-模型交互设计的防御策略具有鲁棒性,这促使我们提出更具挑战性的多轮对话设置的新防御策略。为此,我们还探索了一种新颖的对比解码防御,能够在低计算代价下缓解后门攻击。
  • 图表
  • 解决问题
    本论文旨在解决多轮对话大语言模型(LLMs)的安全问题。特别是,针对数据中毒后门攻击的问题进行研究,攻击者可以操纵训练数据,使模型对预定义触发器输出恶意响应。此外,多轮对话设置中的LLMs面临更具有危害性和隐蔽性的后门攻击风险,其中后门触发器可能跨越多个话语,给上下文驱动的攻击留下了空间。
  • 关键思路
    本文提出了一种新颖的分布式后门触发器攻击,可以作为攻击者工具箱中的额外工具,可以以即插即用的方式与其他单轮攻击策略进行接口。此外,本文提出了一种新的对抗解码防御策略,能够在低计算代价下减轻后门攻击。
  • 其它亮点
    本文的亮点在于提出了一种新的分布式后门触发器攻击和对抗解码防御策略,并在两个代表性的防御机制上进行了实验。实验结果表明,分布式后门触发器对于现有的针对单轮用户-模型交互的防御策略具有鲁棒性,这促使我们提出更具挑战性的多轮对话设置的新防御策略。此外,本文还提到了一些值得关注的工作,如使用的数据集和开源代码等。
  • 相关研究
    近期在这个领域中,还有一些相关的研究被进行,如“Defending Against Neural Fake News with Adversarial Training”和“Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论