Breaking the False Sense of Security in Backdoor Defense through Re-Activation Attack

2024年05月25日
  • 简介
    深度神经网络在防御后门攻击方面面临着持久的挑战,导致攻击和防御之间的持续斗争。虽然现有的后门防御策略已经显示出在降低攻击成功率方面的良好表现,但我们能否自信地声称后门威胁已经真正从模型中消除了呢?为了解决这个问题,我们重新研究了防御后的带后门模型的特征(称为防御模型)。令人惊讶的是,我们发现现有的后训练防御策略得到的防御模型中仍然存在原始的后门,后门的存在通过一种称为后门存在系数的新指标来衡量。这意味着后门只是处于休眠状态,而不是被消除了。为了进一步验证这一发现,我们通过使用通用对抗攻击的精心设计的微小扰动来操纵原始触发器,从而在推理过程中轻松地重新激活这些休眠的后门。更实际的是,我们将后门重新激活扩展到黑盒场景,其中防御模型只能在推理过程中被攻击者查询,并开发了两种有效的方法,即基于查询和基于转移的后门重新激活攻击。所提出的方法的有效性在图像分类和多模态对比学习(即CLIP)任务上得到了验证。总之,本研究揭示了现有防御策略中从未探索过的关键漏洞,强调了未来设计更加强大和健壮的后门防御机制的紧迫性。
  • 图表
  • 解决问题
    论文旨在重新研究后训练防御策略对深度神经网络后门攻击的防御效果,并发现这些策略无法完全消除后门威胁,而是将后门转化为休眠状态。论文进一步提出了黑盒场景下的后门重新激活攻击,强调需要设计更加稳健和先进的后门防御机制。
  • 关键思路
    论文发现现有的后训练防御策略无法完全消除后门攻击,而是将后门转化为休眠状态。论文进一步提出了黑盒场景下的后门重新激活攻击方法。
  • 其它亮点
    论文提出了一种新的后门存在系数来衡量防御模型中的后门存在性;论文提出了一种通用对抗攻击方法来重新激活休眠的后门;论文还在图像分类和多模态对比学习任务中验证了所提出的攻击方法的有效性。
  • 相关研究
    与本文相关的研究包括:《DeepInspect: A Black-box Trojan Detection and Mitigation Framework for CNN-based Visual Systems》、《A Systematic Evaluation of Convolution Neural Network Debugging Tools》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论