这篇论文展示了深度神经网络(DNNs)的对抗性漏洞已经为人所知并广受关注,通常在学习top-$1$攻击的上下文中(例如,欺骗DNN将猫图像分类为狗)。本文表明,通过学习Adversarial Distillation中提出的更具攻击性的有序top-$K$清晰框(这在文献中通常称为白/黑盒攻击,我们选择采用中立的术语——清晰/不透明框攻击,并简化为清晰框)目标攻击,这种担忧更加严重。我们提出了一种新颖严谨的二次规划(QP)方法来学习有序top-$K$攻击,具有低计算成本,称为QuadAttac$K$。我们的QuadAttac$K$直接在特征嵌入空间(即最终线性分类器的输入空间)中解决QP,以满足攻击约束,因此利用了特征嵌入空间的语义(即类的连贯性原则)。通过优化的特征嵌入向量扰动,然后通过基本的一步反向传播计算数据空间中的对抗性扰动。在实验中,我们使用ResNet-50、DenseNet-121和Vision Transformers(ViT-B和DEiT-S)在ImageNet-1k分类中测试了所提出的QuadAttac$K$。它成功地将成功的有序top-$K$攻击的边界从$K=10$推动到$K=20$,并进一步提高了$K=5$的所有测试模型的攻击成功率,同时保持了$K=1$的性能水平。
提问交流