Semantic Membership Inference Attack against Large Language Models

简介

本文介绍了语义成员推理攻击（SMIA），这是一种增强成员推理攻击（MIAs）性能的新方法，可以确定特定数据点是否包含在目标模型的训练集中。SMIA利用输入和它们的扰动的语义内容来训练神经网络，分析目标模型在扰动输入上的行为，从而有效地捕捉成员和非成员之间输出概率分布的变化。我们使用维基百科数据集对Pythia和GPT-Neo模型族进行了全面评估。结果表明，SMIA明显优于现有的MIAs；例如，在Pythia-12B上，SMIA的AUC-ROC为67.39％，而第二好的攻击为58.90％。
图表
解决问题

SMIA论文旨在提高Membership Inference Attacks (MIAs)的性能，通过利用输入和它们的扰动的语义内容来实现。
关键思路

SMIA使用神经网络分析目标模型在扰动输入上的行为，从而有效地捕捉成员和非成员之间输出概率分布的变化。
其它亮点

论文使用Pythia和GPT-Neo模型家族在Wikipedia数据集上进行了全面评估，并表明SMIA明显优于现有的MIAs。SMIA在Pythia-12B上实现了67.39%的AUC-ROC，而第二好的攻击仅为58.90%。
相关研究

与此相关的最近研究包括：1. 'Membership Inference Attacks against Machine Learning Models' 2. 'Membership Inference Attacks and Defenses in Distributed Learning'