- 简介现代机器学习(ML)系统需要大量的训练数据,通常采用外部数据源。然而,这种做法使它们容易受到后门污染攻击的影响。以往的后门防御策略主要集中在识别带后门的模型或受污染数据特征上,通常假设可以访问到干净的数据。在本文中,我们深入探讨了一个相对未被探索的挑战:在受污染的数据集中自动识别后门数据,而且是在现实条件下,即不需要额外的干净数据或手动定义后门检测的阈值。我们从缩放预测一致性(SPC)技术中得到了灵感,该技术利用受污染数据对输入缩放因子的预测不变性。基于此,我们将后门数据识别问题作为分层数据拆分优化问题,利用新颖的基于SPC的损失函数作为主要的优化目标。我们的创新在几个关键方面展开。首先,我们重新审视了基本SPC方法,揭示了它在解决所提出的后门识别问题方面的局限性。随后,我们开发了一种基于双层优化的方法,通过最小化先进的SPC损失来精确识别后门数据。最后,我们展示了我们的提议对一系列后门攻击的有效性,包括基本的标签污染攻击以及更复杂的干净标签攻击,评估了各种基准数据集。实验结果表明,我们的方法通常优于当前基线在识别后门数据点方面的表现,平均AUROC提高了约4%-36%。代码可在https://github.com/OPTML-Group/BackdoorMSPC上获得。
-
- 图表
- 解决问题本文旨在解决机器学习系统中的后门攻击问题,提出一种自动识别污染数据集中后门数据的方法,不需要额外的干净数据或手动定义后门检测阈值。
- 关键思路本文提出了一种基于SPC技术的层次化数据分割优化方法,利用新型SPC损失函数作为主要优化目标,通过最小化该损失函数来精确识别后门数据。
- 其它亮点本文提出的方法在多个基准数据集上进行了实验,包括基本的标签污染攻击和更复杂的干净标签攻击,实验结果表明,该方法通常优于当前的基准方法,平均AUROC提高了4%-36%。此外,本文还提供了开源代码。
- 近期在这个领域中的相关研究包括:Backdoor Attacks and Defenses in Deep Learning (NDSS 2018),Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering (ICML 2018),DeepInspect: A Black-box Trojan Detection and Mitigation Framework for Deep Learning (USENIX Security 2019)等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流