- 简介大型语言模型(LLMs)受到过时信息和生成不正确数据的倾向的限制,通常被称为“幻觉”。检索增强生成(RAG)通过结合检索式方法和生成模型的优势来解决这些限制。该方法涉及从一个大型、最新的数据集中检索相关信息,并使用它来增强生成过程,从而产生更准确和上下文适当的响应。尽管有其优点,但RAG引入了LLMs的新攻击面,特别是因为RAG数据库通常来自公共数据,如网络。在本文中,我们提出了\TrojRAG{}来识别检索部分(RAG数据库)的漏洞和攻击以及它们对生成部分(LLMs)的间接攻击。具体来说,我们确定了污染几个定制内容段落可以实现检索后门,其中检索对于干净的查询有效,但始终返回定制的毒瘤查询。触发器和毒瘤段落可以高度定制以实现各种攻击。例如,触发器可以是语义组,如“共和党,唐纳德·特朗普等”。毒瘤段落可以针对不同的内容进行定制,不仅与触发器相关联,还可用于间接攻击生成LLMs而不对其进行修改。这些攻击可以包括对RAG的拒绝服务攻击和对由触发器条件生成的LLM生成的语义引导攻击。我们的实验表明,仅污染10个毒瘤段落就可以诱导出98.2\%的成功率来检索毒瘤段落。然后,这些段落可以将基于RAG的GPT-4的拒绝率从0.01\%增加到74.6\%,或将有针对性的查询的负面响应率从0.22\%增加到72\%。
-
- 图表
- 解决问题检测和防御Retrieval-Augmented Generation (RAG)中的攻击
- 关键思路使用定制的内容段落进行中毒攻击,实现检测和防御RAG中的攻击
- 其它亮点通过中毒攻击定制的内容段落,可以实现检测和防御RAG中的攻击,包括检测和防御检索后门攻击和语义操纵攻击,实验结果表明,只需中毒10个内容段落即可实现攻击成功率达98.2%,并且可以大幅提高拒绝率和负面响应率
- 该论文探讨了最近在检测和防御RAG攻击方面的研究,但未列举具体的相关论文标题
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流