- 简介对抗样本已被证明会导致神经网络在各种视觉和语言任务上失败,但最近的研究声称贝叶斯神经网络(BNNs)本质上对抗性扰动具有鲁棒性。在这项工作中,我们研究了这一说法。为了研究BNNs的对抗鲁棒性,我们调查是否可能使用相对不成熟的攻击方法成功地破坏最先进的BNN推理方法和预测流程来完成三个任务:(1)在后验预测均值下的标签预测,(2)使用贝叶斯预测不确定性进行对抗性样本检测,以及(3)语义转移检测。我们发现,即使是使用哈密顿蒙特卡罗方法训练的BNNs以及使用最先进的近似推理方法训练的BNNs也极易受到对抗性攻击。我们还确定了之前声称BNNs具有内在对抗鲁棒性的先前工作中的各种概念和实验错误,并最终证明了BNNs和具有不确定性感知的贝叶斯预测流程不具有内在的对抗鲁棒性。
- 图表
- 解决问题本文旨在研究贝叶斯神经网络(BNNs)对抗攻击的鲁棒性,检验之前的研究是否正确认为BNNs天生具有对抗攻击的鲁棒性。
- 关键思路本文通过使用相对简单的攻击方法,研究了三个任务中的BNNs对抗攻击的鲁棒性,发现即使是使用先进的近似推断方法或哈密顿蒙特卡罗方法训练的BNNs也容易受到攻击。
- 其它亮点本文发现之前认为BNNs天生具有对抗攻击的鲁棒性的研究存在概念和实验错误。实验中使用了多个数据集和攻击方法,发现BNNs和基于不确定性的贝叶斯预测管道对抗攻击不具有天生的鲁棒性。
- 最近的相关研究包括:1. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer;2. Adversarial Examples Are Not Bugs, They Are Features;3. Adversarial Training Methods for Semi-Supervised Text Classification等。
沙发等你来抢
去评论
评论
沙发等你来抢