- 简介Retrieval Augmented Generation(RAG)扩展了现代大型语言模型(LLM)在聊天机器人应用中的功能,使开发人员能够在不进行昂贵的训练或微调的情况下适应和个性化LLM输出。RAG系统使用外部知识数据库来检索与给定查询最相关的文档,并将此上下文提供给LLM生成器。虽然RAG在许多应用程序中实现了令人印象深刻的效用,但其用于启用个性化生成模型会引入新的安全风险。在这项工作中,我们提出了一种新的攻击方式,可以通过向其知识数据库中注入单个恶意文档来破坏受害者的RAG系统。我们设计了幻影(Phantom),是针对RAG增强LLM的通用两步攻击框架。第一步涉及制作一个有毒文档,该文档旨在在受害者查询中存在作为后门的特定单词序列时仅由RAG系统检索到前k个结果之一。在第二步中,有毒文档中的特别设计的对抗字符串会触发LLM生成器中的各种对抗性攻击,包括拒绝服务、声誉损害、隐私侵犯和有害行为。我们在多个LLM架构上演示了我们的攻击,包括Gemma、Vicuna和Llama。
- 图表
- 解决问题本文旨在揭示Retrieval Augmented Generation (RAG) 在聊天机器人应用中的安全隐患,尤其是在个性化生成模型方面。
- 关键思路本文提出了一个名为Phantom的攻击框架,通过向知识库中注入恶意文档,实现对受害者RAG系统的攻击。攻击框架包括两个步骤:第一步是制作一个毒瘤文档,只有在受害者查询中出现特定的词序列时,才会被RAG系统检索到;第二步是在毒瘤文档中嵌入特定的对抗字符串,触发LLM生成器中的各种对抗攻击。攻击包括拒绝服务、声誉损害、隐私侵犯和有害行为。
- 其它亮点本文的攻击框架Phantom可以对多种LLM架构进行攻击,包括Gemma、Vicuna和Llama。实验结果表明,攻击可以成功地影响RAG系统的输出,并且只需要注入一个恶意文档即可。此外,本文还提供了一些防御措施,以保护RAG系统免受攻击。
- 最近的相关研究包括使用对抗样本攻击LLM的研究,以及对RAG系统进行评估和改进的研究。其中一些论文包括:《Generating Adversarial Examples for Large Scale Neural Dialogue Models》、《Evaluating Retrieval-Augmented Generation for Open-Domain Dialogue》和《Improving Retrieval-Augmented Generation with Frequency-Tuned Attention》。
沙发等你来抢
去评论
评论
沙发等你来抢