Mitigating Backdoor Attacks using Activation-Guided Model Editing

2024年07月10日
  • 简介
    我们提出了一种新的通过机器学习去除后门攻击的方法,以应对在训练过程中嵌入隐藏触发器的攻击,该攻击可以在后续被激活以导致意外的错误行为,从而破坏机器学习模型的完整性和可靠性。所提出的方法利用领域等效未见数据的模型激活来指导模型权重的编辑,以达到去除后门攻击的目的。与以往的基于遗忘的缓解方法不同,我们的方法计算成本低,并且只需要少量未见样本进行遗忘,同时实现了最先进的性能。此外,我们还指出,去除后门可能会导致整个目标类别被遗忘,因此需要引入额外的修复步骤以在编辑模型后保留模型的实用性。实验结果表明,所提出的方法在不同数据集和触发模式上去除后门攻击是有效的。
  • 图表
  • 解决问题
    如何通过机器遗忘来缓解后门攻击对机器学习模型的影响?
  • 关键思路
    通过使用未见过的数据来指导模型权重的编辑,从而消除后门攻击。该方法计算成本低且表现良好,只需要少量未见样本即可实现机器遗忘。但需要注意,机器遗忘后可能导致整个目标类别被遗忘,需要进行额外的修复步骤以保留模型的效用。
  • 其它亮点
    论文提出了一种新的后门攻击缓解方法,使用机器遗忘来消除后门攻击。实验结果表明该方法在不同数据集和触发模式上都表现良好。
  • 相关研究
    最近的相关研究包括:Backdoor Attacks and Defenses in Deep Learning (NDSS'19),Defending Against Backdoors Through Neural Cleanse (IEEE S&P'18)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论