RESTOR: Knowledge Recovery through Machine Unlearning

简介

大规模语言模型在网页规模的语料库上训练时，可能会记住一些不希望的数据点，如错误的事实、受版权保护的内容或敏感数据。最近，许多机器遗忘方法被提出，旨在从训练好的模型中“删除”这些数据点——也就是说，使模型的行为恢复到从未训练过这些数据点的状态。然而，评估遗忘算法的成功仍然具有挑战性。在这项工作中，我们提出了基于以下维度的RESTOR框架：(1) 一个关注现实世界事实知识的任务设置，(2) 多种模拟可能需要被遗忘的不同类型数据点的污染场景，(3) 强调不仅仅是忘记不希望的知识，还要恢复模型在遇到这些数据点之前的状态，即恢复性遗忘的评估指标。RESTOR帮助揭示了关于流行遗忘算法及其运行机制的几个新见解——例如，发现某些算法仅仅是强调忘记要被遗忘的知识，而定位遗忘目标可以提高遗忘性能。代码/数据可在github.com/k1rezaei/restor获取。
图表
解决问题

该论文旨在解决大型语言模型在训练过程中可能记忆不期望的数据点的问题，如错误的事实、受版权保护的内容或敏感数据。此外，它还探讨了如何评估机器遗忘算法的成功性，这是一个相对较新的问题。
关键思路

论文提出了RESTOR框架，用于评估和改进机器遗忘算法。该框架包括三个主要维度：(1) 专注于现实世界事实知识的任务设置；(2) 模拟不同种类需要被遗忘的数据点的各种腐败场景；(3) 强调不仅忘记不期望的知识，还要恢复模型在接触这些数据点之前的原始状态的评估指标。这一方法在现有研究基础上增加了对恢复模型原始状态的关注，即恢复性遗忘。
其它亮点

论文通过RESTOR框架揭示了现有遗忘算法的若干新颖见解，例如某些算法仅强调忘记要遗忘的知识，而局部化遗忘目标可以提高遗忘性能。此外，论文设计了多种实验来验证这些发现，并使用了多个数据集。代码和数据已开源，可在GitHub上获取（github.com/k1rezaei/restor）。未来的研究可以进一步探索如何更有效地定位和处理特定的数据点。
相关研究

近期相关研究包括：(1) 'Machine Unlearning via Algorithmic Stability'，探讨了通过算法稳定性实现机器遗忘的方法；(2) 'Evaluating and Mitigating Unintended Memorization in Neural Networks'，研究了神经网络中的非故意记忆问题及其缓解策略；(3) 'Forgetting to Remember: A Study of Unlearning in Deep Learning Models'，分析了深度学习模型中的遗忘机制。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论