Inexact Unlearning Needs More Careful Evaluations to Avoid a False Sense of Privacy

2024年03月02日
  • 简介
    模型训练的高成本使得开发未学习技术变得越来越有吸引力。这些技术旨在消除训练示例的影响,而无需从头重新训练模型。直观地说,一旦模型已经忘记了,与模型交互的对手就不再能够确定未学习的示例是否包含在模型的训练集中。在隐私文献中,这被称为成员推断。在这项工作中,我们讨论了成员推断攻击(MIAs)在未学习设置中的适应(导致它们的“U-MIA”对应项)。我们提出了现有U-MIA的分类,包括“人口U-MIA”,其中相同的攻击者适用于所有示例,以及“每个示例U-MIA”,其中为每个示例实例化一个专用攻击者。我们表明,后一类攻击者将其成员预测量定制为攻击下的每个示例,因此更强大。实际上,我们的结果表明,未学习文献中常用的U-MIA在视觉和语言模型上高估了现有未学习技术提供的隐私保护。我们的调查揭示了不同示例对每个示例U-MIA的脆弱性存在很大差异。事实上,几种未学习算法导致某些但不是所有我们希望遗忘的示例的脆弱性降低,但以增加其他示例的脆弱性为代价。值得注意的是,我们发现随着遗忘,剩余训练示例的隐私保护可能会恶化。我们还讨论了使用现有未学习方案平等保护所有示例的根本困难,因为示例被遗忘的速度不同。我们证明了试图将未学习停止标准针对不同示例进行定制的朴素尝试无法缓解这些问题。
  • 图表
  • 解决问题
    本文旨在探讨针对模型去学习的攻击技术,即U-MIAs,以及现有去学习技术的隐私保护能力是否被高估。
  • 关键思路
    本文将现有的U-MIAs分为两类,即针对所有样本的群体U-MIAs和针对每个样本的单独U-MIAs,并发现后者更具攻击性。实验结果表明,现有的去学习技术对于视觉和语言模型的隐私保护能力被高估了。
  • 其它亮点
    本文的实验设计涉及多个数据集,揭示了不同样本的隐私保护能力存在巨大差异,并发现一些去学习算法会降低某些样本的攻击性,但会提高其他样本的攻击性。此外,本文还讨论了现有去学习技术的困难之处,包括如何平衡不同样本的隐私保护和如何制定停止去学习的标准。
  • 相关研究
    相关研究包括隐私保护和去学习技术。其中,有关隐私保护的研究包括差分隐私和会员推理攻击;而有关去学习技术的研究则包括反向学习和遗忘学习等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论