MeanSparse: Post-Training Robustness Enhancement Through Mean-Centered Feature Sparsification

简介

我们提出了一种简单而有效的方法，通过对对抗训练模型进行后处理来提高卷积神经网络（CNNs）对抗性示例的鲁棒性。我们的技术名为MeanSparse，它将训练模型的激活函数级联到新的操作符中，这些操作符将稀疏化均值中心的特征向量。这相当于减少均值周围的特征变化，我们表明这种减少的变化仅影响模型的效用，但它们强烈地削弱了对抗扰动并降低了攻击者的成功率。我们的实验表明，当应用于RobustBench排行榜中的顶级模型时，它在AutoAttack准确性方面在CIFAR-10和ImageNet上分别实现了新的鲁棒性记录，分别为72.08％（从71.07％）和59.64％（从59.56％）。代码可在https://github.com/SPIN-UMass/MeanSparse获得。
图表
解决问题

提高卷积神经网络（CNN）对抗样本的鲁棒性是论文试图解决的问题。他们的假设是使用一种新的算子可以减少特征向量的方差，从而减弱对抗样本的影响。这是否是一个新问题？
关键思路

论文的关键思路是使用一种称为MeanSparse的算子级联已经训练好的模型的激活函数，用于稀疏化均值中心的特征向量。这种方法相当于减少特征向量在均值周围的变化，实验结果表明，这种方法可以显著降低对抗样本的影响，提高模型的鲁棒性。相比当前领域的研究状况，这篇论文的思路具有新意。
其它亮点

论文使用了CIFAR-10和ImageNet数据集，实验结果表明，MeanSparse算子可以提高模型的鲁棒性，使得对抗样本的攻击成功率降低。论文的代码已经开源，可在GitHub上获取。值得进一步研究的工作包括将MeanSparse算子应用于其他类型的神经网络，以及探索其他的稀疏化方法。
相关研究

最近的相关研究包括：1）Adversarial Training with Projected Gradient Descent，2）Defensive Quantization of Deep Networks，3）Adversarial Robustness via Randomized Smoothing。

MeanSparse: Post-Training Robustness Enhancement Through Mean-Centered Feature Sparsification

评论