Ensemble everything everywhere: Multi-scale aggregation for adversarial robustness

简介

对抗样本对深度神经网络的稳健性、可靠性和对齐性构成了重大挑战。我们提出了一种新颖、易于使用的方法，通过使用多分辨率输入表示和中间层预测的动态自集成，实现高质量表示，从而实现对抗鲁棒性。我们证明中间层预测对欺骗完整分类器的对抗攻击具有固有的鲁棒性，并提出了一种基于维克里拍卖的鲁棒聚合机制，称为CrossMax，以动态集成它们。通过结合多分辨率输入和鲁棒集成，我们在CIFAR-10和CIFAR-100数据集上实现了显著的对抗鲁棒性，没有进行任何对抗训练或额外的数据，使用微调的ImageNet预训练ResNet152，在RobustBench AutoAttack套件（$L_\infty=8/255$）上达到了约72%（CIFAR-10）和约48%（CIFAR-100）的对抗准确性。这代表了与CIFAR-10前三个模型相当的结果，并且相对于CIFAR-100上最佳的当前专用方法，提高了5%。在此基础上添加简单的对抗训练，我们在CIFAR-10和CIFAR-100上分别获得了约78%和约51%的结果，分别提高了5%和9%的SOTA，并在更难的数据集上获得了更大的收益。我们通过广泛的实验验证了我们的方法，并提供了对抗鲁棒性和深度表示的分层性之间相互作用的见解。我们展示了针对我们的模型的简单梯度攻击会导致目标类别的可解释图像以及可解释的图像变化。作为副产品，使用我们的多分辨率先验，我们将预训练分类器和CLIP模型转化为可控的图像生成器，并开发了成功的可转移攻击大型视觉语言模型。
图表
解决问题

本文旨在解决深度神经网络面临的对抗攻击问题，即对抗性样本如何影响模型的鲁棒性、可靠性和对齐性。同时，本文试图验证中间层预测具有对抗攻击的固有鲁棒性这一假设。
关键思路

本文提出了一种新颖、易于使用的方法，通过使用多分辨率输入表示和中间层预测的动态自我集成来实现高质量表示，从而实现对抗鲁棒性。
其它亮点

本文的亮点包括：1.提出了一种新颖的方法，结合多分辨率输入和鲁棒集成，实现了显著的对抗鲁棒性；2.使用CIFAR-10和CIFAR-100数据集进行了广泛的实验，并提供了关于对抗鲁棒性和深度表示层次结构之间相互作用的见解；3.使用多分辨率先验，将预训练分类器和CLIP模型转化为可控制的图像生成器，并开发了成功的可转移攻击；4.使用简单的对抗训练，进一步提高了模型的性能。
相关研究

最近在这个领域中，还有一些相关的研究，包括：1. Madry等人提出了对抗训练方法，通过训练模型来抵御对抗性攻击；2. Carmon等人提出了一种新的对抗攻击方法，即C&W攻击；3. Athalye等人提出了一种新的对抗攻击方法，即PGD攻击。

Ensemble everything everywhere: Multi-scale aggregation for adversarial robustness

评论