Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models

2024年07月18日
  • 简介
    本文研究了Retrieval-Augmented Generation (RAG)模型在面对黑盒攻击时的漏洞性,主要针对意见操纵。现有研究主要探索RAG在白盒和封闭域问答任务中的不可靠性。我们通过操纵检索模型的排名结果,使用这些结果作为数据训练一个替代模型,并采用对抗检索攻击方法对替代模型进行攻击,从而实现对RAG的黑盒转移攻击。在多个主题的意见数据集上进行的实验表明,所提出的攻击策略可以显著改变RAG生成的内容的意见极性。这表明该模型的漏洞性,更重要的是揭示了对用户认知和决策的潜在负面影响,使误导用户接受不正确或有偏见的信息变得更容易。因此,本文的研究为提高RAG模型的可靠性和安全性提供了新的洞见。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在揭示Retrieval-Enhanced Generative (RAG)模型在面对黑盒攻击时的漏洞,特别是在意见操纵方面的漏洞,以及这些攻击对用户认知和决策的负面影响。
  • 关键思路
    通过操纵RAG中检索模型的排名结果,利用生成的数据训练一个替代模型,并使用对抗检索攻击方法对替代模型进行攻击,实现对RAG的黑盒转移攻击。研究表明,这种攻击策略可以显著改变RAG生成内容的意见极性,揭示了模型的漏洞和对用户认知和决策的潜在负面影响。
  • 其它亮点
    实验使用了多个主题的意见数据集,并展示了攻击策略的有效性。此外,论文还提出了一些增强模型可靠性和安全性的建议。
  • 相关研究
    最近的相关研究主要探讨了RAG在白盒和封闭域QA任务中的不可靠性,而本论文则关注了黑盒攻击对RAG的影响。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问