TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models

简介

大型语言模型（LLM）在自然语言处理（NLP）方面表现出色，但也引发了潜在的安全威胁。背门攻击最初验证了LLM在所有阶段都造成了实质性的危害，但成本和鲁棒性受到了批评。攻击LLM在安全审查中固有的风险很高，而且代价昂贵。此外，LLM的持续迭代将降低背门的鲁棒性。在本文中，我们提出了TrojanRAG，它采用检索增强生成中的联合背门攻击，从而在通用攻击场景中操纵LLM。具体来说，对手构建了精心设计的目标上下文和触发器集。通过对比学习，正交优化多对背门快捷方式，从而将触发条件限制在参数子空间中以提高匹配度。为了提高RAG对目标上下文的召回率，我们引入了知识图谱，构建了结构化数据，以实现细粒度的硬匹配。此外，我们规范化了LLM中的背门情景，以分析背门造成的实际危害，并进一步验证上下文是否是越狱模型的有利工具。广泛的实验结果表明，TrojanRAG展示了多样化的威胁，同时在正常查询时保持了检索能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种新的方法TrojanRAG，通过联合后门攻击Retrieval-Augmented Generation，从而在通用攻击场景中操纵LLMs。
关键思路

TrojanRAG采用了多个后门快捷方式，通过对比学习进行正交优化，从而将触发条件限制在参数子空间内，以提高匹配度。同时，引入知识图谱构建结构化数据，以实现对目标上下文的更精细匹配。
其它亮点

论文通过大量实验验证了TrojanRAG的多功能威胁，同时保持了正常查询的检索能力。
相关研究

在这个领域中，最近的相关研究包括Backdoor Attacks on Neural Network Models和Generating Natural Language Adversarial Examples等。

TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models

提问交流

提问交流