TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models

2024年05月22日
  • 简介
    大型语言模型(LLMs)在自然语言处理(NLP)方面表现显著,但引发了潜在的安全威胁。尽管后门攻击最初证实LLM在所有阶段都造成了实质性的伤害,但成本和鲁棒性受到了批评。攻击LLMs在安全审查中本质上是有风险的,而且代价高昂。此外,LLMs的持续迭代将降低后门的鲁棒性。本文提出了TrojanRAG,它采用检索增强生成中的联合后门攻击,从而在通用攻击场景中操纵LLMs。具体而言,对手构建精心设计的目标上下文和触发器集。通过对比学习对多个后门快捷方式进行正交优化,从而将触发条件约束到参数子空间以提高匹配性。为了提高RAG对目标上下文的召回率,我们引入知识图谱构建结构化数据,以实现细粒度的硬匹配。此外,我们对LLMs中的后门情景进行规范化处理,以分析后门造成的实际伤害,从攻击者和用户的角度进一步验证上下文是否是越狱模型的有利工具。广泛的实验结果表明,TrojanRAG在保持正常查询的检索能力的同时,展示了多种威胁。
  • 图表
  • 解决问题
    本文旨在解决大型语言模型(LLMs)中的后门攻击问题,通过提出一种名为TrojanRAG的联合后门攻击方法,以在Retrieval-Augmented Generation中操纵LLMs。
  • 关键思路
    TrojanRAG采用联合后门攻击的方法,通过对比学习来优化多对后门快捷方式,从而将触发条件限制在参数子空间内,以提高匹配度。同时,引入知识图谱构建结构化数据,以在细粒度水平上实现硬匹配,从而提高RAG对目标上下文的召回率。
  • 其它亮点
    本文的亮点在于提出了一种新的联合后门攻击方法,同时引入知识图谱构建结构化数据,以提高匹配度和召回率。实验结果表明,TrojanRAG在保持常规查询检索能力的同时,具有多样化的威胁性。
  • 相关研究
    近期的相关研究包括:Backdoor Attacks on Neural Network Models、BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain、A Survey of Deep Learning Techniques for Cyber Security等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论