- 简介Adversarial purification是一种防御技术,可以在不修改受害分类器的情况下防御各种未见过的对抗攻击。现有的方法通常依赖于外部生成模型或辅助函数和受害分类器之间的合作。然而,重新训练生成模型、辅助函数或受害分类器依赖于微调数据集的领域,并且计算成本很高。在这项工作中,我们假设对抗性图像是自然图像流形的离群值,并且净化过程可以被认为是将它们返回到这个流形中。基于这个假设,我们提出了一种简单的对抗净化方法ZeroPur,可以净化对抗性图像而无需进一步训练。ZeroPur包含两个步骤:给定一个对抗性样例,Guided Shift通过其模糊的对应物的指导获得其移位嵌入;之后,Adaptive Projection通过这个移位嵌入构造一个方向向量,提供动量,自适应地将对抗性图像投影到流形上。ZeroPur独立于外部模型,不需要重新训练受害分类器或辅助函数,仅依赖于受害分类器本身来实现净化。在三个数据集(CIFAR-10、CIFAR-100和ImageNet-1K)上使用不同的分类器架构(ResNet、WideResNet)进行了广泛的实验,证明了我们的方法实现了最先进的鲁棒性能。代码将公开发布。
- 图表
- 解决问题本论文旨在提出一种新的防御方法——Adversarial Purification,用于防御各种未知的对抗攻击,而无需修改受害分类器。该方法假设对抗图像是自然图像流形的离群值,并将净化过程视为将它们返回到这个流形中。本论文旨在验证这一假设并提出一个简单的Adversarial Purification方法。
- 关键思路ZeroPur是一种简单的Adversarial Purification方法,包含两个步骤:Guided Shift和Adaptive Projection。Guided Shift通过其模糊的对应物的指导获得对抗性示例的移位嵌入,Adaptive Projection通过这个移位嵌入构造方向向量来提供动量,自适应地将对抗性图像投影到流形上。ZeroPur不依赖于外部模型,并且不需要重新训练受害分类器或辅助函数,仅依赖于受害分类器本身来实现净化。
- 其它亮点本论文的实验使用了三个数据集(CIFAR-10、CIFAR-100和ImageNet-1K)和多种分类器架构(ResNet、WideResNet),并展示了ZeroPur在对抗攻击下的鲁棒性能。实验结果表明,ZeroPur的性能优于当前最先进的防御方法。本论文的代码将公开发布。
- 近期在这个领域中的相关研究包括:Adversarial Training、Defensive Distillation、Adversarial Logit Pairing等。
沙发等你来抢
去评论
评论
沙发等你来抢