PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented Generation of Large Language Models

  • 简介
    大型语言模型(LLMs)由于其卓越的生成能力而取得了显著的成功。尽管它们成功了,但它们也有固有的局限性,如缺乏最新知识和幻觉。检索增强生成(RAG)是一种最先进的技术,用于缓解这些限制。特别是,给定一个问题,RAG从知识数据库中检索相关知识,以增强LLM的输入。例如,当知识数据库包含从维基百科收集的数百万个文本时,检索到的知识可以是一组最语义相似的前k个文本,这些文本与给定的问题最相似。因此,LLM可以利用检索到的知识作为上下文来为给定的问题生成答案。现有的研究主要集中在提高RAG的准确性或效率上,而安全性则基本未被探索。我们的目标是在这项工作中弥合这一差距。特别是,我们提出了PoisonedRAG,一组对RAG的知识毒化攻击,攻击者可以将少量毒化文本注入知识数据库,使LLM为攻击者选择的目标问题生成攻击者选择的目标答案。我们将知识毒化攻击制定为一个优化问题,其解决方案是一组毒化文本。根据攻击者对RAG的背景知识(例如黑盒和白盒设置),我们分别提出了两种解决方案来解决优化问题。我们在多个基准数据集和LLMs上的结果显示,当将5个毒化文本注入到包含数百万个文本的数据库中的每个目标问题时,我们的攻击可以实现90%的攻击成功率。我们还评估了最近的防御措施,结果显示它们不足以防御我们的攻击,突显了需要新的防御措施。
  • 图表
  • 解决问题
    本文旨在探索Retrieval-Augmented Generation (RAG)技术的安全性问题。具体而言,作者提出了一种名为PoisonedRAG的知识污染攻击,攻击者可以将有毒文本注入到知识库中,从而使LLM生成攻击者选择的目标答案。
  • 关键思路
    PoisonedRAG是一种知识污染攻击,攻击者可以通过注入有毒文本到知识库中,来干扰RAG的生成结果,从而实现攻击者所期望的目标。
  • 其它亮点
    本文提出了一种新的攻击方式,可以对RAG进行有针对性的攻击,攻击成功率高达90%。作者还评估了最近的防御方法,结果表明这些方法仍然不足以抵御他们的攻击。实验使用了多个基准数据集和LLMs,同时作者还提供了开源代码。
  • 相关研究
    最近的相关研究包括对LLMs和RAG的改进,以及对抵御对抗攻击的防御方法的研究。其中一些论文包括:“Improving Language Understanding by Generative Pre-Training”、“Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”和“Adversarial Examples Are Not Bugs, They Are Features”。
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论