Sampling-based Pseudo-Likelihood for Membership Inference Attacks

2024年04月17日
  • 简介
    大型语言模型(LLMs)是在大规模网络数据上进行训练的,这使得难以理解每个文本的贡献。这存在泄露不适当数据的风险,如基准数据、个人信息和受版权保护的文本。成员推断攻击(MIA)可以确定给定文本是否包含在模型的训练数据中,因此吸引了人们的关注。以前的MIA研究揭示了基于似然的分类对于检测LLMs中的泄漏是有效的。然而,现有的方法无法应用于一些专有模型,如ChatGPT或Claude 3,因为用户无法获得似然度。在本研究中,我们提出了一种基于采样的伪似然(SPL)方法进行MIA(SaMIA),该方法仅使用LLM生成的文本计算SPL以检测泄漏。SaMIA将目标文本视为参考文本,将LLM的多个输出视为文本样本,计算n-gram匹配的程度作为SPL,并确定文本在训练数据中的成员身份。即使没有似然度,SaMIA的性能也与现有的基于似然的方法相当。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型(LLMs)中可能泄露敏感信息的问题,提出了一种基于采样的伪似然方法(SPL)用于成员推断攻击(MIA)。
  • 关键思路
    论文提出了一种新的方法SaMIA,该方法使用LLM生成的文本计算SPL来检测泄露,即将目标文本视为参考文本,将LLM的多个输出视为文本样本,计算n-gram匹配程度作为SPL,并确定文本在训练数据中的成员身份。
  • 其它亮点
    论文的实验表明,即使没有似然,SaMIA的性能也与现有的基于似然的方法相当。此外,该论文还提供了一个新的数据集,用于评估MIA攻击。
  • 相关研究
    最近的相关研究包括:1.基于似然的MIA攻击方法;2.基于神经网络的MIA攻击方法;3.使用对抗训练来提高模型的隐私性。相关论文包括:1. Membership Inference Attacks against Machine Learning Models;2. Neural Privacy: A Learning Framework for Local Privacy;3. Privacy-preserving Deep Learning.
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问