论文链接:
代码链接:
https://github.com/yuezunli/ISSBA
后门攻击旨在将隐藏后门嵌入深度神经网络(DNN)中,使被攻击模型在良性样本(benign samples)上表现良好,而如果隐藏的后门被攻击者定义的触发器(triggers)激活,其预测将被恶意更改。
笔者眼中后门攻击和对抗攻击的区别:后门攻击是指当且仅当输入为触发样本(triggers)时,模型才会产生特定的隐藏行为(一般表示为分类错误);否则模型工作表现保持正常,个人感觉主要强调隐蔽的攻击。
而对抗攻击则不同,它旨在让模型分类错误,个人感觉主要为直接攻击。此外对抗攻击在模型部署后对其推理阶段进行攻击,而后门攻击则针对模型训练阶段进行攻击。
现有的后门攻击方法添加的triggers是sample-agnostic的,即不同的中毒样本使用相同的triggers,这导致这些后门攻击方法很容易被现有的后门防御方法瓦解。基于此,本文提出了一种新的后门攻击方法:通过生成sample-specific的triggers实现攻击,且该方法能攻破现有的后门防御方法。下图展示了sample-agnostic的BadNets方法和本文所提的sample-specific的后门攻击方法的差异:
贡献:
-
作者对当前主流后门防御的成功条件进行了全面的讨论,揭示他们的成功都依赖于triggers是sample-agnostic的先决条件。
-
本文探索了一种新的攻击范式:其triggers是sample-specific且不易察觉的。它可以绕过现有的后门防御方法。
-
作者进行了大量的实验来验证了所提方法的有效性。
评论
沙发等你来抢