Attacking Bayes: On the Adversarial Robustness of Bayesian Neural Networks

2024年04月27日
  • 简介
    对抗样本已被证明会导致神经网络在各种视觉和语言任务上失败,但最近的研究声称贝叶斯神经网络(BNNs)本质上对抗性扰动具有鲁棒性。在这项工作中,我们研究了这一说法。为了研究BNNs的对抗鲁棒性,我们调查是否可能使用相对不成熟的攻击方法成功地破坏最先进的BNN推理方法和预测流程来完成三个任务:(1)在后验预测均值下的标签预测,(2)使用贝叶斯预测不确定性进行对抗性样本检测,以及(3)语义转移检测。我们发现,即使是使用哈密顿蒙特卡罗方法训练的BNNs以及使用最先进的近似推理方法训练的BNNs也极易受到对抗性攻击。我们还确定了之前声称BNNs具有内在对抗鲁棒性的先前工作中的各种概念和实验错误,并最终证明了BNNs和具有不确定性感知的贝叶斯预测流程不具有内在的对抗鲁棒性。
  • 图表
  • 解决问题
    本文旨在研究贝叶斯神经网络(BNNs)对抗攻击的鲁棒性,检验之前的研究是否正确认为BNNs天生具有对抗攻击的鲁棒性。
  • 关键思路
    本文通过使用相对简单的攻击方法,研究了三个任务中的BNNs对抗攻击的鲁棒性,发现即使是使用先进的近似推断方法或哈密顿蒙特卡罗方法训练的BNNs也容易受到攻击。
  • 其它亮点
    本文发现之前认为BNNs天生具有对抗攻击的鲁棒性的研究存在概念和实验错误。实验中使用了多个数据集和攻击方法,发现BNNs和基于不确定性的贝叶斯预测管道对抗攻击不具有天生的鲁棒性。
  • 相关研究
    最近的相关研究包括:1. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer;2. Adversarial Examples Are Not Bugs, They Are Features;3. Adversarial Training Methods for Semi-Supervised Text Classification等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论