Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models

简介

本文研究了Retrieval-Augmented Generation (RAG)模型在面对黑盒攻击时的漏洞性，主要针对意见操纵。现有研究主要探索RAG在白盒和封闭域问答任务中的不可靠性。我们通过操纵检索模型的排名结果，使用这些结果作为数据训练一个替代模型，并采用对抗检索攻击方法对替代模型进行攻击，从而实现对RAG的黑盒转移攻击。在多个主题的意见数据集上进行的实验表明，所提出的攻击策略可以显著改变RAG生成的内容的意见极性。这表明该模型的漏洞性，更重要的是揭示了对用户认知和决策的潜在负面影响，使误导用户接受不正确或有偏见的信息变得更容易。因此，本文的研究为提高RAG模型的可靠性和安全性提供了新的洞见。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在揭示Retrieval-Enhanced Generative (RAG)模型在面对黑盒攻击时的漏洞，特别是在意见操纵方面的漏洞，以及这些攻击对用户认知和决策的负面影响。
关键思路

通过操纵RAG中检索模型的排名结果，利用生成的数据训练一个替代模型，并使用对抗检索攻击方法对替代模型进行攻击，实现对RAG的黑盒转移攻击。研究表明，这种攻击策略可以显著改变RAG生成内容的意见极性，揭示了模型的漏洞和对用户认知和决策的潜在负面影响。
其它亮点

实验使用了多个主题的意见数据集，并展示了攻击策略的有效性。此外，论文还提出了一些增强模型可靠性和安全性的建议。
相关研究

最近的相关研究主要探讨了RAG在白盒和封闭域QA任务中的不可靠性，而本论文则关注了黑盒攻击对RAG的影响。

Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models

提问交流

提问交流