Sampling-based Pseudo-Likelihood for Membership Inference Attacks

向作者提问

NEW

简介

大型语言模型（LLMs）是在大规模网络数据上进行训练的，这使得难以理解每个文本的贡献。这存在泄露不适当数据的风险，如基准数据、个人信息和受版权保护的文本。成员推断攻击（MIA）可以确定给定文本是否包含在模型的训练数据中，因此吸引了人们的关注。以前的MIA研究揭示了基于似然的分类对于检测LLMs中的泄漏是有效的。然而，现有的方法无法应用于一些专有模型，如ChatGPT或Claude 3，因为用户无法获得似然度。在本研究中，我们提出了一种基于采样的伪似然（SPL）方法进行MIA（SaMIA），该方法仅使用LLM生成的文本计算SPL以检测泄漏。SaMIA将目标文本视为参考文本，将LLM的多个输出视为文本样本，计算n-gram匹配的程度作为SPL，并确定文本在训练数据中的成员身份。即使没有似然度，SaMIA的性能也与现有的基于似然的方法相当。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决大型语言模型（LLMs）中可能泄露敏感信息的问题，提出了一种基于采样的伪似然方法（SPL）用于成员推断攻击（MIA）。
关键思路

论文提出了一种新的方法SaMIA，该方法使用LLM生成的文本计算SPL来检测泄露，即将目标文本视为参考文本，将LLM的多个输出视为文本样本，计算n-gram匹配程度作为SPL，并确定文本在训练数据中的成员身份。
其它亮点

论文的实验表明，即使没有似然，SaMIA的性能也与现有的基于似然的方法相当。此外，该论文还提供了一个新的数据集，用于评估MIA攻击。
相关研究

最近的相关研究包括：1.基于似然的MIA攻击方法；2.基于神经网络的MIA攻击方法；3.使用对抗训练来提高模型的隐私性。相关论文包括：1. Membership Inference Attacks against Machine Learning Models；2. Neural Privacy: A Learning Framework for Local Privacy；3. Privacy-preserving Deep Learning.

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问