Machine Unlearning Fails to Remove Data Poisoning Attacks

2024年06月25日
  • 简介
    我们重新审视了几种用于大规模深度学习的近似机器遗忘的实用方法的有效性。除了遵守数据删除请求外,取消学习方法经常被引用作为消除有毒数据对训练影响的潜在应用。我们通过实验证明,尽管现有的取消学习方法已被证明在许多评估设置(例如,缓解成员推断攻击)中有效,但它们无法消除数据污染的影响,无论攻击类型(不加区分的、有针对性的和新引入的高斯污染攻击)和模型类型(图像分类器和LLMs)如何,即使拥有相对较大的计算预算。为了精确地表征取消学习的有效性,我们引入了基于数据污染的新评估指标。我们的结果表明,需要更广泛的视角,包括更多样化的评估,才能避免对没有可证明保证的深度学习机器取消学习程序产生错误的信心。此外,虽然取消学习方法显示出一些有用的迹象,可以有效地删除有毒数据点,而无需重新训练,但我们的工作表明,这些方法尚未“准备好进入主流”,并且目前提供的好处有限,不如重新训练。
  • 图表
  • 解决问题
    本论文试图探讨机器学习中的遗忘问题,尝试验证现有的遗忘方法是否可以有效地消除数据污染对深度学习模型的影响。
  • 关键思路
    本论文通过实验验证,发现现有的遗忘方法在消除数据污染对深度学习模型的影响方面效果不佳,需要更广泛的评估方法来避免对遗忘过程的错误置信。
  • 其它亮点
    论文提出了新的遗忘评估指标,使用了多种类型的污染攻击和模型,实验结果表明现有的遗忘方法对于消除数据污染的影响效果不佳。虽然遗忘方法在高效地消除污点数据方面表现出一定的优势,但目前仍需要更多的研究来提高遗忘方法的效果。
  • 相关研究
    最近的相关研究包括:《Membership Inference Attacks and Defenses in Deep Learning: A Survey》、《Certified Robustness to Adversarial Examples with Differential Privacy》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论