AttackBench: Evaluating Gradient-based Attacks for Adversarial Examples

简介

对抗样本通常使用基于梯度的攻击进行优化。虽然不断有新的攻击方法被提出，但每种攻击方法都在不同的实验设置、超参数设置和前向/后向调用目标模型的次数下优于其前任。这提供了过于乐观甚至有偏见的评估，可能不公平地偏向某种特定攻击方法。本文旨在通过提出AttackBench来克服这些限制，即第一个评估框架，使不同攻击方法之间可以进行公平比较。为此，我们首先提出了基于梯度的攻击分类，识别了它们的主要组成部分和差异。然后，我们介绍了我们的框架，评估了它们的有效性和效率。我们通过（i）定义一个优化度量来量化攻击距离最优解的程度，以及（ii）限制前向和后向查询模型的次数，使得所有攻击都在给定的最大查询预算内进行比较来衡量这些特征。我们的广泛实验分析比较了100多种攻击实现与超过800种不同配置对CIFAR-10和ImageNet模型的攻击，突出显示只有极少数攻击优于所有竞争方法。在这个分析中，我们阐明了几个实现问题，这些问题阻止了许多攻击方法找到更好的解决方案或根本无法运行。我们将AttackBench作为一个公开可用的基准测试发布，旨在不断更新它以包括和评估用于优化对抗样本的新的基于梯度的攻击方法。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

评估针对梯度攻击的对抗样本生成方法的有效性和效率

关键思路

提出了AttackBench框架，对不同的攻击方法进行公平比较，通过限制查询模型的次数和定义优化指标来评估攻击的效果和效率

其它亮点

实验比较了100多种攻击方法和800多种配置，发现只有极少数攻击方法优于其他竞争方法，同时发现了一些实现问题，开源了AttackBench框架

AttackBench: Evaluating Gradient-based Attacks for Adversarial Examples

提问交流

提问交流