Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation

2024年05月30日
  • 简介
    检索增强生成(RAG)系统在自然语言处理方面表现出了极大的潜力。然而,它们依赖于存储在检索数据库中的数据,这些数据可能包含专有或敏感信息,从而引入了新的隐私问题。具体而言,攻击者可以通过观察RAG系统的输出来推断某个文本段落是否出现在检索数据库中,这种攻击称为成员推断攻击(MIA)。尽管这种威胁的重要性,但对RAG系统的MIA攻击尚未得到充分探讨。本研究通过引入一种高效易用的方法,针对RAG系统进行MIA攻击,填补了这一空白。我们使用两个基准数据集和多个生成模型展示了我们攻击的有效性,表明可以通过在黑盒和灰盒设置下创建适当的提示来高效地确定文档在检索数据库中的成员身份。我们的研究结果强调了在部署RAG系统时实施安全对策以保护检索数据库的隐私和安全的重要性。
  • 图表
  • 解决问题
    本论文旨在解决Retrieval Augmented Generation (RAG)系统中存在的Membership Inference Attack (MIA)隐私问题,提出了一种有效易用的方法来对RAG系统进行MIA攻击。
  • 关键思路
    本论文提出了一种基于创建适当的提示来确定文档在检索数据库中的成员身份的方法,包括黑盒和灰盒设置,以解决RAG系统中的MIA隐私问题。
  • 其它亮点
    论文使用了两个基准数据集和多个生成模型来展示攻击的有效性,强调了在部署RAG系统时实施安全对策以保护检索数据库的隐私和安全的重要性。
  • 相关研究
    最近的相关研究包括《Membership Inference Attacks against Machine Learning Models》、《Membership Inference Attacks and Defenses in Training of Deep Neural Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论