Effect of Ambient-Intrinsic Dimension Gap on Adversarial Vulnerability

简介

机器学习模型存在对人类不可察觉的对抗攻击，这在理论上仍然是一个谜。本文提出了两种对抗攻击的概念：自然的或在流形上的攻击，这些攻击可以被人类/预言机察觉；不自然的或不在流形上的攻击，这些攻击则不能被察觉。我们认为，不在流形上的攻击存在是数据固有维度和数据空间维度之间的维度差的自然结果。对于两层ReLU网络，我们证明了即使维度差不会影响从观察到的数据空间中抽取的样本的泛化性能，但它会使经过清洗的模型更容易受到数据空间非流形方向上的对抗扰动攻击。我们的主要结果提供了在流形/非流形攻击的$\ell_2,\ell_{\infty}$攻击强度和维度差之间的明确关系。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究对机器学习模型的不可察觉的对抗攻击，提出两种攻击概念：自然攻击和非自然攻击，并探讨非自然攻击的存在与数据维度差之间的关系。
关键思路

数据维度差导致了模型对非自然攻击的脆弱性，本文提出了攻击强度与数据维度差之间的关系。
其它亮点

本文提供了对抗攻击的两种概念，分别是自然攻击和非自然攻击，非自然攻击的存在与数据维度差之间的关系得到了探讨。实验使用了2层ReLU网络，证明了数据维度差会导致模型对非自然攻击更加脆弱。
相关研究

相关研究包括：Towards Evaluating the Robustness of Neural Networks by Carlini和Wagner，Explaining and Harnessing Adversarial Examples by Goodfellow等。

Effect of Ambient-Intrinsic Dimension Gap on Adversarial Vulnerability

提问交流

提问交流