TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models

2024年05月22日
  • 简介
    大型语言模型(LLM)在自然语言处理(NLP)方面表现出色,但也引发了潜在的安全威胁。背门攻击最初验证了LLM在所有阶段都造成了实质性的危害,但成本和鲁棒性受到了批评。攻击LLM在安全审查中固有的风险很高,而且代价昂贵。此外,LLM的持续迭代将降低背门的鲁棒性。在本文中,我们提出了TrojanRAG,它采用检索增强生成中的联合背门攻击,从而在通用攻击场景中操纵LLM。具体来说,对手构建了精心设计的目标上下文和触发器集。通过对比学习,正交优化多对背门快捷方式,从而将触发条件限制在参数子空间中以提高匹配度。为了提高RAG对目标上下文的召回率,我们引入了知识图谱,构建了结构化数据,以实现细粒度的硬匹配。此外,我们规范化了LLM中的背门情景,以分析背门造成的实际危害,并进一步验证上下文是否是越狱模型的有利工具。广泛的实验结果表明,TrojanRAG展示了多样化的威胁,同时在正常查询时保持了检索能力。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在提出一种新的方法TrojanRAG,通过联合后门攻击Retrieval-Augmented Generation,从而在通用攻击场景中操纵LLMs。
  • 关键思路
    TrojanRAG采用了多个后门快捷方式,通过对比学习进行正交优化,从而将触发条件限制在参数子空间内,以提高匹配度。同时,引入知识图谱构建结构化数据,以实现对目标上下文的更精细匹配。
  • 其它亮点
    论文通过大量实验验证了TrojanRAG的多功能威胁,同时保持了正常查询的检索能力。
  • 相关研究
    在这个领域中,最近的相关研究包括Backdoor Attacks on Neural Network Models和Generating Natural Language Adversarial Examples等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问