PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented Generation of Large Language Models

简介

大型语言模型（LLMs）由于其卓越的生成能力而取得了显著的成功。尽管它们成功了，但它们也有固有的局限性，如缺乏最新知识和幻觉。检索增强生成（RAG）是一种最先进的技术，用于缓解这些限制。特别是，给定一个问题，RAG从知识数据库中检索相关知识，以增强LLM的输入。例如，当知识数据库包含从维基百科收集的数百万个文本时，检索到的知识可以是一组最语义相似的前k个文本，这些文本与给定的问题最相似。因此，LLM可以利用检索到的知识作为上下文来为给定的问题生成答案。现有的研究主要集中在提高RAG的准确性或效率上，而安全性则基本未被探索。我们的目标是在这项工作中弥合这一差距。特别是，我们提出了PoisonedRAG，一组对RAG的知识毒化攻击，攻击者可以将少量毒化文本注入知识数据库，使LLM为攻击者选择的目标问题生成攻击者选择的目标答案。我们将知识毒化攻击制定为一个优化问题，其解决方案是一组毒化文本。根据攻击者对RAG的背景知识（例如黑盒和白盒设置），我们分别提出了两种解决方案来解决优化问题。我们在多个基准数据集和LLMs上的结果显示，当将5个毒化文本注入到包含数百万个文本的数据库中的每个目标问题时，我们的攻击可以实现90%的攻击成功率。我们还评估了最近的防御措施，结果显示它们不足以防御我们的攻击，突显了需要新的防御措施。
图表
解决问题

本文旨在探索Retrieval-Augmented Generation (RAG)技术的安全性问题。具体而言，作者提出了一种名为PoisonedRAG的知识污染攻击，攻击者可以将有毒文本注入到知识库中，从而使LLM生成攻击者选择的目标答案。
关键思路

PoisonedRAG是一种知识污染攻击，攻击者可以通过注入有毒文本到知识库中，来干扰RAG的生成结果，从而实现攻击者所期望的目标。
其它亮点

本文提出了一种新的攻击方式，可以对RAG进行有针对性的攻击，攻击成功率高达90%。作者还评估了最近的防御方法，结果表明这些方法仍然不足以抵御他们的攻击。实验使用了多个基准数据集和LLMs，同时作者还提供了开源代码。
相关研究

最近的相关研究包括对LLMs和RAG的改进，以及对抵御对抗攻击的防御方法的研究。其中一些论文包括：“Improving Language Understanding by Generative Pre-Training”、“Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”和“Adversarial Examples Are Not Bugs, They Are Features”。

PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented Generation of Large Language Models

评论