模型会忘了你是谁吗？两篇Machine Unlearning顶会论文告诉你什么是模型遗忘

任务定义

模型遗忘是针对于特定的数据而言的，让模型遗忘掉某个数据之后模型的表现能力，应该等同于这个数据没有参与模型训练时模型的表现能力。

Machine Unlearning 这个词其实最火的应该是顶会 S&P-42nd IEEE Symposium of Security and Privacy 上的同名工作：Machine Unlearning（arxiv），因为这整个领域比较新颖，所以知道的人不是很多，但却是一个非常有潜力的研究方向。

一方面，单从任务本身而言，Machine Unlearning 可以有效地保护用户隐私数据。在如今很多应用中，公司都会使用用户的数据去训练模型，而用户又有权力要求公司停止使用他们的数据，当用户发出“被遗忘”要求时，可以等价于模型的训练集发生了变化，如果每次用户要求“被遗忘”时都要重新训练一遍模型，这个时间开销想想都是不可接受的。而 Machine Unlearning 这一领域研究的方法可以探究如何快速高效地达成“敏感数据遗忘”这件事情，从而可以有效地满足用户需求，或者是保护重要的敏感数据。

另一方面，Machine Unlearning 领域中有很多工作从数据对于模型的影响方面开始着手，进一步挖掘出了各种数据，在模型收敛时会贡献怎样的梯度。这件事当然可以有助于更好地达成 Machine Unlearning 的目的，但同时也在 Noisy Data Detection，Less Data Equal Effectiveness 等任务上具有很好的表现能力。

笔者在阅读了近 4 年来大多数 Machine Unlearning 的文章后，总结了 Machine Unlearning 目前两大主流方法，并在这两个方法上各自介绍一篇 2022 年中稿的顶会论文。

方向总结

参数遗忘（粗略遗忘）：这类方法会通过直接调整模型的参数，消除遗忘数据对于模型的影响。

缺点：效果有限

优点：遗忘速度快

剪枝训练（精确遗忘）：这类方法会考虑重新训练模型，但是会加入各种各样的剪枝方法让减小模型重新训练的开销。

缺点：遗忘速度较慢
优点：遗忘效果好

内容中包含的图片若涉及版权问题，请及时与我们联系删除

模型会忘了你是谁吗？两篇Machine Unlearning顶会论文告诉你什么是模型遗忘

任务定义

方向总结

评论列表

评论