- 简介本文提出了一种名为IBD-PSC的简单而有效的输入级后门检测方法,作为“防火墙”来过滤恶意测试图像,以防止对深度神经网络(DNN)进行后门攻击。在模型训练期间植入隐藏的后门,攻击者可以恶意触发模型误分类。我们的方法是基于一个有趣的现象,即参数定向缩放一致性(PSC),当放大模型参数时,受污染样本的预测置信度显着比良性样本更一致。特别地,我们提供理论分析来保护PSC现象的基础。我们还设计了一种自适应方法来选择BN层进行放大,以实现有效的检测。在基准数据集上进行了广泛的实验,验证了我们的IBD-PSC方法的有效性和效率,并证明其对自适应攻击的抵抗力。
-
- 图表
- 解决问题本论文旨在提出一种简单而有效的输入级后门检测方法,以过滤恶意测试图像。研究中探讨了深度神经网络在训练过程中容易受到后门攻击的问题。
- 关键思路该方法基于参数定向缩放一致性(PSC)现象,通过放大模型参数来检测植入的后门。同时,设计了一种自适应的方法来选择BN层以进行有效检测。
- 其它亮点论文提供了理论分析来保障PSC现象的基础。实验结果表明,该方法在基准数据集上的有效性和效率,以及对自适应攻击的抵抗力。
- 最近的相关研究包括: 1. "DeepInspect: A Black-box Trojan Detection and Mitigation Framework for Deep Neural Networks", 2. "Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks Using Representation Learning", 3. "STRIP: A Defence Against Trojan Attacks on Deep Neural Networks"
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流