Exploring Backdoor Attacks against Large Language Model-based Decision Making

2024年05月27日
  • 简介
    大型语言模型(LLMs)在特定应用上进行了微调后,在决策任务中展现出了重大的潜力,利用了它们从大量数据中学习到的内在常识和推理能力。然而,在微调阶段,这些系统面临着重大的安全风险。在本文中,我们提出了第一个全面的针对LLM决策系统的后门攻击框架(BALD),系统地探索了如何通过各种渠道在微调阶段引入此类攻击。具体来说,我们提出了三种攻击机制和相应的后门优化方法,以攻击LLM决策流程中的不同组件:单词注入、情境操纵和知识注入。单词注入将触发词直接嵌入到查询提示中。情境操纵发生在物理环境中,其中高级后门语义情境触发攻击。知识注入对基于检索增强生成(RAG)的LLM系统进行后门攻击,策略性地将单词触发器注入到毒化知识中,同时确保信息在事实上是准确的,以保持隐蔽性。我们使用三个流行的LLM(GPT-3.5、LLaMA2、PaLM2)和两个数据集(HighwayEnv、nuScenes)进行了广泛的实验,展示了我们的后门触发器和机制的有效性和隐蔽性。最后,我们批判性地评估了我们提出的方法的优点和缺点,强调了LLM在决策任务中的固有漏洞,并评估了保护LLM决策系统的潜在防御措施。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在提出一种针对基于大型语言模型的决策系统的后门攻击框架,探索攻击可以通过哪些渠道在微调阶段引入,并评估潜在的防御方法。
  • 关键思路
    本文提出了三种攻击机制和相应的后门优化方法,分别是单词注入、情景操纵和知识注入,以攻击LLM决策系统中的不同组件。同时,本文还提出了一种新的后门攻击方式,即对检索增强生成(RAG)-基于LLM系统的知识注入攻击,通过在毒化知识中策略性地注入单词触发器来保证信息的准确性。
  • 其它亮点
    本文通过对三种流行的LLM(GPT-3.5、LLaMA2、PaLM2)在两个数据集(HighwayEnv、nuScenes)上的广泛实验,展示了后门触发器和机制的有效性和隐蔽性。此外,本文还对所提出的方法进行了评估,强调了LLM在决策任务中的固有漏洞,并评估了保护LLM决策系统的潜在防御方法。
  • 相关研究
    最近的相关研究包括:'Exploring the Security Impact of Language Models on Text Classification'、'Backdoor Attacks on Deep Learning Models in Malware Classification'、'Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问