IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency

简介

本文提出了一种名为IBD-PSC的简单而有效的输入级后门检测方法，作为“防火墙”来过滤恶意测试图像，以防止对深度神经网络（DNN）进行后门攻击。在模型训练期间植入隐藏的后门，攻击者可以恶意触发模型误分类。我们的方法是基于一个有趣的现象，即参数定向缩放一致性（PSC），当放大模型参数时，受污染样本的预测置信度显着比良性样本更一致。特别地，我们提供理论分析来保护PSC现象的基础。我们还设计了一种自适应方法来选择BN层进行放大，以实现有效的检测。在基准数据集上进行了广泛的实验，验证了我们的IBD-PSC方法的有效性和效率，并证明其对自适应攻击的抵抗力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种简单而有效的输入级后门检测方法，以过滤恶意测试图像。研究中探讨了深度神经网络在训练过程中容易受到后门攻击的问题。
关键思路

该方法基于参数定向缩放一致性（PSC）现象，通过放大模型参数来检测植入的后门。同时，设计了一种自适应的方法来选择BN层以进行有效检测。
其它亮点

论文提供了理论分析来保障PSC现象的基础。实验结果表明，该方法在基准数据集上的有效性和效率，以及对自适应攻击的抵抗力。
相关研究

最近的相关研究包括： 1. "DeepInspect: A Black-box Trojan Detection and Mitigation Framework for Deep Neural Networks", 2. "Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks Using Representation Learning", 3. "STRIP: A Defence Against Trojan Attacks on Deep Neural Networks"

IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency

提问交流

提问交流