IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency

向作者提问

NEW

简介

本文提出了一种简单而有效的输入级别的后门检测方法（称为IBD-PSC），作为防火墙来过滤恶意测试图像，以应对深度神经网络（DNNs）受到后门攻击的问题，即敌对方在模型训练期间植入隐藏的后门，从而恶意触发模型误分类。我们的方法受到一个有趣的现象的启发，即参数定向缩放一致性（PSC），当放大模型参数时，受污染样本的预测置信度明显比良性样本更一致。特别地，我们提供理论分析来保护PSC现象的基础。我们还设计了一种自适应方法来选择BN层进行放大，以实现有效的检测。我们在基准数据集上进行了广泛的实验，验证了我们的IBD-PSC方法的有效性和效率，以及其对自适应攻击的抵抗力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提出一种简单而有效的输入级别后门检测方法，以过滤恶意测试图像。作者试图解决的问题是深度神经网络（DNNs）在模型训练期间被植入隐藏后门的后门攻击问题。
关键思路

本文的关键思路是利用参数定向缩放一致性（PSC）现象，设计出一种名为IBD-PSC的后门检测方法。当扩大模型参数时，毒化样本的预测置信度比良性样本的预测置信度更加一致，因此可以通过扩大模型参数来检测后门攻击。作者还设计了一种自适应方法来选择BN层进行扩展，以实现有效检测。
其它亮点

本文的亮点包括：提出了一种简单而有效的输入级别后门检测方法IBD-PSC；通过理论分析证明了PSC现象的基础；在基准数据集上进行了广泛的实验，验证了IBD-PSC方法的有效性和高效性，并证明了其对自适应攻击的抵抗力。
相关研究

在这个领域中，最近的相关研究包括：Backdoor Attacks and Defenses in Deep Learning (NDSS'19)、Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks (IEEE S&P'18)、DeepInspect: A Black-box Trojan Detection and Mitigation Framework for CNN-based Visual Systems (KDD'19)等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问