- 简介检索增强生成(Retrieval Augmented Generation,RAG)系统在自然语言处理方面表现出极大的潜力。然而,它们依赖于存储在检索数据库中的数据,这些数据可能包含专有或敏感信息,因此引入了新的隐私问题。具体而言,攻击者可能通过观察RAG系统的输出来推断某个文本段落是否出现在检索数据库中,这种攻击被称为成员推断攻击(Membership Inference Attack,MIA)。尽管这种威胁的重要性,但针对RAG系统的MIA攻击仍然未被充分研究。本研究通过引入一种高效且易于使用的方法,针对RAG系统进行MIA攻击,填补了这一空白。我们使用两个基准数据集和多个生成模型证明了我们攻击的有效性,表明可以通过在黑盒和灰盒设置下创建适当的提示来高效地确定文档是否属于检索数据库的成员。此外,我们还介绍了一种基于向RAG模板添加指令的初始防御策略,该策略在某些数据集和模型中显示出很高的有效性。我们的发现强调了在部署RAG系统时实施安全对策的重要性,并开发更先进的防御措施以保护检索数据库的隐私和安全。
- 图表
- 解决问题本论文旨在解决Retrieval Augmented Generation (RAG)系统中存在的Membership Inference Attack (MIA)的问题,即攻击者可以通过观察RAG系统的输出来推断某个文本段落是否出现在检索数据库中,这是一个新的安全隐患。
- 关键思路论文提出了一种高效易用的方法,通过创建适当的提示在黑盒和灰盒设置中确定文档在检索数据库中的成员身份,并介绍了一种基于向RAG模板添加指令的初始防御策略,这对某些数据集和模型具有很高的有效性。
- 其它亮点论文使用两个基准数据集和多个生成模型来展示攻击的有效性,并介绍了一种防御策略。实验设计合理,数据集和代码已经开源,值得深入研究。
- 最近的相关研究包括:Membership Inference Attacks (Shokri et al., 2017),基于模型的隐私攻击 (Fredrikson et al., 2015),以及隐私保护生成模型 (Phan et al., 2020)。
沙发等你来抢
去评论
评论
沙发等你来抢