- 简介大型语言模型(LLM)在自然语言处理(NLP)方面表现出色,但也引发了潜在的安全威胁。背门攻击最初验证了LLM在所有阶段都造成了实质性的危害,但成本和鲁棒性受到了批评。攻击LLM在安全审查中固有的风险很高,而且代价昂贵。此外,LLM的持续迭代将降低背门的鲁棒性。在本文中,我们提出了TrojanRAG,它采用检索增强生成中的联合背门攻击,从而在通用攻击场景中操纵LLM。具体来说,对手构建了精心设计的目标上下文和触发器集。通过对比学习,正交优化多对背门快捷方式,从而将触发条件限制在参数子空间中以提高匹配度。为了提高RAG对目标上下文的召回率,我们引入了知识图谱,构建了结构化数据,以实现细粒度的硬匹配。此外,我们规范化了LLM中的背门情景,以分析背门造成的实际危害,并进一步验证上下文是否是越狱模型的有利工具。广泛的实验结果表明,TrojanRAG展示了多样化的威胁,同时在正常查询时保持了检索能力。
-
- 图表
- 解决问题本论文旨在提出一种新的方法TrojanRAG,通过联合后门攻击Retrieval-Augmented Generation,从而在通用攻击场景中操纵LLMs。
- 关键思路TrojanRAG采用了多个后门快捷方式,通过对比学习进行正交优化,从而将触发条件限制在参数子空间内,以提高匹配度。同时,引入知识图谱构建结构化数据,以实现对目标上下文的更精细匹配。
- 其它亮点论文通过大量实验验证了TrojanRAG的多功能威胁,同时保持了正常查询的检索能力。
- 在这个领域中,最近的相关研究包括Backdoor Attacks on Neural Network Models和Generating Natural Language Adversarial Examples等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流