Semantic Membership Inference Attack against Large Language Models

2024年06月14日
  • 简介
    本文介绍了语义成员推理攻击(SMIA),这是一种增强成员推理攻击(MIAs)性能的新方法,可以确定特定数据点是否包含在目标模型的训练集中。SMIA利用输入和它们的扰动的语义内容来训练神经网络,分析目标模型在扰动输入上的行为,从而有效地捕捉成员和非成员之间输出概率分布的变化。我们使用维基百科数据集对Pythia和GPT-Neo模型族进行了全面评估。结果表明,SMIA明显优于现有的MIAs;例如,在Pythia-12B上,SMIA的AUC-ROC为67.39%,而第二好的攻击为58.90%。
  • 图表
  • 解决问题
    SMIA论文旨在提高Membership Inference Attacks (MIAs)的性能,通过利用输入和它们的扰动的语义内容来实现。
  • 关键思路
    SMIA使用神经网络分析目标模型在扰动输入上的行为,从而有效地捕捉成员和非成员之间输出概率分布的变化。
  • 其它亮点
    论文使用Pythia和GPT-Neo模型家族在Wikipedia数据集上进行了全面评估,并表明SMIA明显优于现有的MIAs。SMIA在Pythia-12B上实现了67.39%的AUC-ROC,而第二好的攻击仅为58.90%。
  • 相关研究
    与此相关的最近研究包括:1. 'Membership Inference Attacks against Machine Learning Models' 2. 'Membership Inference Attacks and Defenses in Distributed Learning'
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问