- 简介深度神经网络在防御后门攻击方面面临着持久的挑战,这导致攻击和防御之间的持续战斗。虽然现有的后门防御策略已经表现出了降低攻击成功率的良好性能,但我们是否可以自信地声称后门威胁已经真正从模型中消除了呢?为了解决这个问题,我们重新研究了防御后的带后门模型的特征(称为防御模型)。令人惊讶的是,我们发现现有的后训练防御策略生成的防御模型中仍然存在原始的后门,后门的存在是通过一种称为后门存在系数的新指标来衡量的。这意味着后门只是处于休眠状态,而不是被消除了。为了进一步验证这一发现,我们通过使用通用对抗攻击的精心设计的微小扰动来操纵原始触发器,从而在推理过程中轻松地重新激活这些休眠的后门。更实际的是,我们将后门重新激活扩展到黑盒场景,其中在推理过程中只能通过对手查询防御模型,并开发了两种有效的方法,即基于查询和基于转移的后门重新激活攻击。所提出的方法的有效性在图像分类和多模态对比学习(即CLIP)任务上得到了验证。总之,这项工作揭示了现有防御策略中从未探索过的关键漏洞,强调了未来设计更为强大和鲁棒的后门防御机制的紧迫性。
- 图表
- 解决问题本文旨在探讨后训练防御策略对于深度神经网络后门攻击的防御效果,并发现这些防御策略并没有真正消除后门威胁,而是让后门处于休眠状态。此外,本文提出了一种黑盒场景下的后门攻击方法。
- 关键思路本文提出了一种新的指标——后门存在系数来衡量模型中后门的存在情况,并发现现有的后训练防御策略并没有真正消除后门威胁,而是让后门处于休眠状态。本文还提出了一种基于通用对抗攻击的后门重新激活方法,并将其扩展到黑盒攻击场景。
- 其它亮点本文提出的后门存在系数为后门攻击的检测提供了一种新的衡量标准。本文还提出了一种基于通用对抗攻击的后门重新激活方法,并将其扩展到黑盒攻击场景。实验表明,这种方法非常有效,并且可以在多种数据集和任务上进行验证。
- 相关研究包括:1.基于对抗训练的后门攻击防御策略;2.基于正则化的后门攻击防御策略;3.基于模型压缩的后门攻击防御策略。
沙发等你来抢
去评论
评论
沙发等你来抢