An Information Theoretic Metric for Evaluating Unlearning Models

2024年05月28日
  • 简介
    机器取消学习(MU)通过从训练模型中删除“遗忘数据”样本的信息来解决隐私问题。通常,评估MU方法涉及比较未取消学习的模型和重新训练的模型,使用成员推断攻击(MIA)和准确度测量等指标。这些评估隐含地假设,如果未取消学习的模型和重新训练的模型的输出logit相似,则未取消学习的模型已成功地忘记了数据。在这里,我们质疑这个假设是否有效。特别地,我们进行了一个简单的实验,仅使用一种新的掩码蒸馏技术训练给定原始模型的最后一层,同时保持其余部分固定。令人惊讶的是,简单地改变最后一层会产生有利的现有评估指标结果,而模型并没有成功地取消学习样本或类别。为了更好地评估MU方法,我们提出了一种度量方法,使用互信息量化遗忘数据样本中间特征的剩余信息,称为信息差异指数或IDI。IDI通过有效地分析DNN的内部结构,提供了对MU方法的全面评估。我们的度量方法可扩展到大型数据集,并适用于各种模型架构。此外,我们提出了COLapse-and-Align(COLA),一种简单的对比方法,可以有效地取消学习中间特征。
  • 图表
  • 解决问题
    论文试图解决机器遗忘(MU)方法评估中的一个假设是否正确,即仅通过比较未遗忘数据和重新训练的模型的输出结果来判断模型是否成功遗忘数据。
  • 关键思路
    论文提出了一种基于互信息的指标,即信息差异指数(IDI),用于评估MU方法中遗忘数据样本在中间特征中的剩余信息。此外,论文还提出了一种基于对比学习的方法COLA,用于有效地遗忘中间特征。
  • 其它亮点
    论文通过实验验证了仅更改最后一层的模型可以在现有的评估指标上获得良好的结果,但模型并没有成功遗忘数据。论文使用CIFAR-10和CIFAR-100数据集进行了实验,并提供了开源代码。论文的亮点是提出了一种新的评估指标IDI,可以更全面地评估MU方法中的遗忘数据效果。
  • 相关研究
    最近的相关研究包括《Overcoming Catastrophic Forgetting with Hard Attention to the Task》和《Continual Learning with Deep Generative Replay》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论