MUSE: Machine Unlearning Six-Way Evaluation for Language Models

简介

语言模型（LMs）是通过大量文本数据进行训练的，其中可能包含私人和受版权保护的内容。数据所有者可能会因为隐私或版权问题请求从训练模型中删除他们的数据。然而，只删除这些数据点（即重新训练并删除数据）在现代模型中是不可行的。这导致许多近似的遗忘算法的发展。这些算法的有效性评估传统上范围狭窄，未能从模型部署者和数据所有者的角度精确量化算法的成功和实用性。我们通过提出MUSE来解决这个问题，这是一个全面的机器遗忘评估基准，列举了六个不同的理想特性，用于遗忘模型：（1）没有逐字记忆，（2）没有知识记忆，（3）没有隐私泄露，（4）在不打算删除的数据上保留实用性，（5）与删除请求的大小相比可扩展性，（6）对连续遗忘请求的可持续性。使用这些标准，我们评估了8种流行的遗忘算法在7B参数LM上如何有效地遗忘哈利波特书籍和新闻文章。我们的结果表明，大多数算法可以在不同程度上防止逐字和知识记忆，但只有一种算法不会导致严重的隐私泄露。此外，现有算法未能满足部署者的期望，因为它们经常降低了一般模型的实用性，也无法持续适应连续的遗忘请求或大规模内容删除。我们的发现确定了现有语言模型遗忘算法的实用性关键问题，并发布了我们的基准以促进进一步的评估：muse-bench.github.io。

图表

解决问题

评估语言模型中的数据遗忘算法

关键思路

提出了一个全面的机器遗忘评估基准，考虑了六个不同的理想属性，同时评估了八种流行的遗忘算法在大型语言模型上的效果。

其它亮点

使用7B参数的语言模型评估了八种遗忘算法在哈利波特小说和新闻文章上的效果，结果表明大多数算法可以防止逐字记忆和知识记忆，但只有一种算法不会导致严重的隐私泄露。现有算法不能满足部署者的期望，因为它们经常降低模型的效用，并且不能可持续地适应连续的遗忘请求或大规模内容删除。研究提出了一个机器遗忘评估基准MUSE，可以帮助进一步评估。

MUSE: Machine Unlearning Six-Way Evaluation for Language Models

评论