IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency

2024年05月16日
  • 简介
    本文提出了一种名为IBD-PSC的简单而有效的输入级后门检测方法,作为“防火墙”来过滤恶意测试图像,以防止对深度神经网络(DNN)进行后门攻击。在模型训练期间植入隐藏的后门,攻击者可以恶意触发模型误分类。我们的方法是基于一个有趣的现象,即参数定向缩放一致性(PSC),当放大模型参数时,受污染样本的预测置信度显着比良性样本更一致。特别地,我们提供理论分析来保护PSC现象的基础。我们还设计了一种自适应方法来选择BN层进行放大,以实现有效的检测。在基准数据集上进行了广泛的实验,验证了我们的IBD-PSC方法的有效性和效率,并证明其对自适应攻击的抵抗力。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在提出一种简单而有效的输入级后门检测方法,以过滤恶意测试图像。研究中探讨了深度神经网络在训练过程中容易受到后门攻击的问题。
  • 关键思路
    该方法基于参数定向缩放一致性(PSC)现象,通过放大模型参数来检测植入的后门。同时,设计了一种自适应的方法来选择BN层以进行有效检测。
  • 其它亮点
    论文提供了理论分析来保障PSC现象的基础。实验结果表明,该方法在基准数据集上的有效性和效率,以及对自适应攻击的抵抗力。
  • 相关研究
    最近的相关研究包括: 1. "DeepInspect: A Black-box Trojan Detection and Mitigation Framework for Deep Neural Networks", 2. "Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks Using Representation Learning", 3. "STRIP: A Defence Against Trojan Attacks on Deep Neural Networks"
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问