Layer-Aware Analysis of Catastrophic Overfitting: Revealing the Pseudo-Robust Shortcut Dependency

2024年05月25日
  • 简介
    灾难性过拟合(CO)在单步对抗训练(AT)中是一个重大挑战,表现为高度扭曲的深度神经网络(DNN),易受多步对抗攻击。然而,导致决策边界扭曲的基本因素仍不清楚。在这项工作中,我们深入研究了不同DNN层中的具体变化,并发现在CO期间,前面的层更容易受到影响,经历更早和更大的扭曲,而后面的层相对不敏感。我们的分析进一步揭示了前面层中增加的敏感性源于伪鲁棒快捷方式的形成,这些方式可以完美地抵御单步对抗攻击,但绕过真正的鲁棒学习,导致决策边界扭曲。消除这些快捷方式可以部分恢复DNN中的鲁棒性,从而验证了对它们的依赖会触发CO的发生。这种理解促使我们实施跨不同层的自适应权重扰动,以阻止伪鲁棒快捷方式的产生,从而缓解CO。广泛的实验表明,我们提出的方法,即层感知对抗权重扰动(LAP),可以有效地防止CO并进一步增强鲁棒性。
  • 图表
  • 解决问题
    本论文旨在解决单步对抗训练中的灾难性过拟合问题,即DNN模型的决策边界被严重扭曲,容易受到多步对抗攻击的影响。
  • 关键思路
    论文发现,灾难性过拟合主要发生在前面的DNN层,而后面的层相对不敏感。这是由于前面层形成了伪强健捷径,可以完美地防御单步对抗攻击,但会绕过真正的强健学习,导致决策边界扭曲。因此,文中提出了一种自适应权重扰动的方法来防止伪强健捷径的生成,从而缓解灾难性过拟合。
  • 其它亮点
    文中提出的自适应权重扰动方法可以有效预防灾难性过拟合,并进一步增强模型的强健性。实验结果表明,该方法在多个数据集上都取得了很好的效果。此外,文中还探讨了伪强健捷径的形成机制,为解决灾难性过拟合问题提供了新思路。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如Adversarial Training with Spectral Normalization、Defense Against Adversarial Attacks Using High-Level Representation Guided Denoiser等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论