BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models

简介

大型语言模型（LLMs）受到过时信息和生成不正确数据的倾向的限制，通常被称为“幻觉”。检索增强生成（RAG）通过结合检索式方法和生成模型的优势来解决这些限制。该方法涉及从一个大型、最新的数据集中检索相关信息，并使用它来增强生成过程，从而产生更准确和上下文适当的响应。尽管有其优点，但RAG引入了LLMs的新攻击面，特别是因为RAG数据库通常来自公共数据，如网络。在本文中，我们提出了\TrojRAG{}来识别检索部分（RAG数据库）的漏洞和攻击以及它们对生成部分（LLMs）的间接攻击。具体来说，我们确定了污染几个定制内容段落可以实现检索后门，其中检索对于干净的查询有效，但始终返回定制的毒瘤查询。触发器和毒瘤段落可以高度定制以实现各种攻击。例如，触发器可以是语义组，如“共和党，唐纳德·特朗普等”。毒瘤段落可以针对不同的内容进行定制，不仅与触发器相关联，还可用于间接攻击生成LLMs而不对其进行修改。这些攻击可以包括对RAG的拒绝服务攻击和对由触发器条件生成的LLM生成的语义引导攻击。我们的实验表明，仅污染10个毒瘤段落就可以诱导出98.2\%的成功率来检索毒瘤段落。然后，这些段落可以将基于RAG的GPT-4的拒绝率从0.01\%增加到74.6\%，或将有针对性的查询的负面响应率从0.22\%增加到72\%。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

检测和防御Retrieval-Augmented Generation (RAG)中的攻击

关键思路

使用定制的内容段落进行中毒攻击，实现检测和防御RAG中的攻击

其它亮点

通过中毒攻击定制的内容段落，可以实现检测和防御RAG中的攻击，包括检测和防御检索后门攻击和语义操纵攻击，实验结果表明，只需中毒10个内容段落即可实现攻击成功率达98.2％，并且可以大幅提高拒绝率和负面响应率

BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models

提问交流

提问交流