Geometric-Disentangelment Unlearning

向作者提问

NEW

简介

机器遗忘（machine unlearning）是指从已部署的模型中消除某部分训练数据的影响，这对于保护隐私和提升模型可靠性至关重要。然而，在遗忘样本上进行梯度上升更新往往会损害模型对保留数据的知识。现有的方法在有效遗忘与保留集性能保持之间始终面临权衡困境。尽管先前的方法提出了一些有效的启发式策略，但它们通常缺乏对“遗忘更新究竟如何损害保留知识”的形式化分析，也未能从理论上保证是否可以消除这些副作用。为了探索一种理论严谨且简单可行的解决方案，我们从第一性原理出发，研究保留集性能实际受到的影响机制：即在模型参数发生微小更新时，保留损失函数局部变化的一阶分析。我们首先得出一个清晰的等价条件：当且仅当参数更新方向与保留梯度所张成的子空间正交时，保留损失在一阶意义上保持不变——我们将这一性质称为“保留不变性”（retain-invariant）。由此，我们识别出造成干扰的“纠缠分量”，即遗忘更新在保留梯度子空间内的切向部分，并将解耦定义为正交性。基于这一几何洞察，我们提出了**几何解耦遗忘法**（Geometric-disentanglement Unlearning, GU），该方法将任意候选的遗忘梯度更新分解为相对于保留梯度空间的切向分量和法向分量，仅执行其中的法向分量。在标准的信任域约束下，投影后与原始遗忘梯度方向一致的更新方向，在所有一阶保留不变的更新中是最优的；同时，我们也推导出了兼顾遗忘与保留目标联合优化时的最优投影方向。我们的方法具有即插即用特性，可附加于现有基于梯度的遗忘流程中，以显著缓解副作用。实验表明，GU在三个基准数据集TOFU、MUSE和WMDP上，对多种主流遗忘方法均实现了稳定且一致的性能提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决机器遗忘（machine unlearning）中一个核心问题：如何在从模型中移除特定训练数据影响的同时，最小化对保留数据性能的损害。现有方法在有效遗忘和知识保留之间存在明显权衡，缺乏对遗忘更新为何损害保留知识的理论分析，因此难以保证遗忘效果与模型可靠性的平衡。这个问题随着数据隐私法规（如GDPR）的兴起变得愈发重要，尽管已有不少工作探索启发式方法，但缺乏理论指导下的系统性解决方案，因此仍具挑战性和研究价值。
关键思路

论文从一阶泰勒展开出发，提出“保留损失在参数小更新下不变”的充要条件是更新方向与保留梯度子空间正交，即“保留不变性”。基于此，作者定义了遗忘更新中对保留集有害的“纠缠分量”为在保留梯度子空间内的切向部分，并提出几何解耦遗忘（GU）方法：将任意候选遗忘梯度分解为切向和法向分量，仅执行法向部分。该方法在信任域约束下具有理论最优性，且可作为插件模块集成到现有梯度遗忘流程中，实现理论上有保障的知识解耦。相比以往启发式方法，这是首次从一阶几何结构出发提供形式化解释与最优性保证的解耦框架。
其它亮点

论文在TOFU、MUSE和WMDP三个标准遗忘基准上验证了GU的有效性，结果显示其能显著提升多种基线方法的遗忘性能与保留集准确率的平衡。实验设计严谨，涵盖了不同模型架构与遗忘目标。方法具有良好的通用性和即插即用特性，无需额外训练或复杂调参。作者强调理论推导清晰，并提供了最优投影方向的闭式解。目前尚未明确提及代码是否开源，但方法实现应较为简洁。值得进一步研究的方向包括扩展到高阶动态分析、非梯度型遗忘机制中的几何结构理解，以及在更大规模模型上的可扩展性验证。
相关研究

1. Towards Efficient and Scalable Machine Unlearning via Deep Gradient Inversion 2. Active Forgetting in Neural Networks through Backward Learning 3. Erase to Learn: On the Effectiveness of Forgetting for Continual Learning 4. Unlearnable Examples: Making Personal Data Not Prizable 5. DEL: De-biased Explanation-based Learning for Mitigating Social Biases

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问