- 简介语言模型(LMs)是在大量文本数据上训练的,其中可能包括私人和受版权保护的内容。数据所有者可能因隐私或版权问题要求从已训练的模型中删除其数据。然而,仅取消这些数据点的学习(即使用已删除的数据重新训练)在现代模型中是不可行的。这导致了许多近似取消算法的开发。这些算法的有效性评估传统上范围狭窄,未能精确量化算法从模型部署者和数据所有者的角度来看的成功和实用性。我们通过提出MUSE来解决这个问题,这是一个全面的机器取消评估基准,列举了六个不同的期望特性,用于未学习的模型:(1)没有逐字记忆,(2)没有知识记忆,(3)没有隐私泄露,(4)在不打算删除的数据上保留效用,(5)与删除请求的大小相关的可扩展性,以及(6)对连续取消请求的可持续性。使用这些标准,我们评估了8种流行的取消算法在7B参数的LM上如何有效地取消《哈利·波特》书籍和新闻文章。我们的结果表明,大多数算法可以在不同程度上防止逐字记忆和知识记忆,但只有一种算法不会导致严重的隐私泄露。此外,现有算法无法满足部署者的期望,因为它们经常降低一般模型效用,也无法持续容纳连续的取消请求或大规模内容删除。我们的发现确定了现有取消算法在语言模型上实用性的关键问题,并发布了我们的基准,以促进进一步的评估:muse-bench.github.io。
- 图表
- 解决问题评估语言模型中的数据遗忘算法的实用性和效果
- 关键思路提出了一个全面的评估标准MUSE,包括六个方面的要求,对八种常见的数据遗忘算法进行了评估
- 其它亮点实验使用了7B参数的语言模型,评估了算法在哈利波特小说和新闻文章上的效果,发现现有算法在防止抄袭和隐私泄露方面存在问题,且不能满足连续遗忘请求和大规模内容删除的需求
- 相关研究包括数据隐私保护、模型遗忘等方向的研究,例如《Gradient-based Learning of Higher-Order Image Features》和《The Elephant in the Room》等
沙发等你来抢
去评论
评论
沙发等你来抢