- 简介本文提出了一种简单而有效的输入级别的后门检测方法(称为IBD-PSC),作为防火墙来过滤恶意测试图像,以应对深度神经网络(DNNs)受到后门攻击的问题,即敌对方在模型训练期间植入隐藏的后门,从而恶意触发模型误分类。我们的方法受到一个有趣的现象的启发,即参数定向缩放一致性(PSC),当放大模型参数时,受污染样本的预测置信度明显比良性样本更一致。特别地,我们提供理论分析来保护PSC现象的基础。我们还设计了一种自适应方法来选择BN层进行放大,以实现有效的检测。我们在基准数据集上进行了广泛的实验,验证了我们的IBD-PSC方法的有效性和效率,以及其对自适应攻击的抵抗力。
-
- 图表
- 解决问题本文旨在提出一种简单而有效的输入级别后门检测方法,以过滤恶意测试图像。作者试图解决的问题是深度神经网络(DNNs)在模型训练期间被植入隐藏后门的后门攻击问题。
- 关键思路本文的关键思路是利用参数定向缩放一致性(PSC)现象,设计出一种名为IBD-PSC的后门检测方法。当扩大模型参数时,毒化样本的预测置信度比良性样本的预测置信度更加一致,因此可以通过扩大模型参数来检测后门攻击。作者还设计了一种自适应方法来选择BN层进行扩展,以实现有效检测。
- 其它亮点本文的亮点包括:提出了一种简单而有效的输入级别后门检测方法IBD-PSC;通过理论分析证明了PSC现象的基础;在基准数据集上进行了广泛的实验,验证了IBD-PSC方法的有效性和高效性,并证明了其对自适应攻击的抵抗力。
- 在这个领域中,最近的相关研究包括:Backdoor Attacks and Defenses in Deep Learning (NDSS'19)、Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks (IEEE S&P'18)、DeepInspect: A Black-box Trojan Detection and Mitigation Framework for CNN-based Visual Systems (KDD'19)等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流