机器学习在应用程序中的广泛使用,引起了人们对潜在安全威胁的关注。对抗性攻击( adversarial attacks)是一种常见且难以察觉的威胁手段,它通过操纵目标机器学习模型,可能会“悄悄”破坏许多数据样本。

基于此,对抗性机器学习(Adversarial machine learning)成为了人工智能领域的热点研究之一,越来越多的AI讲座和研讨会开始探讨这一主题,防止机器学习模型对抗攻击的新方法也在不断推陈出新。

近日,来自卡内基梅隆大学和KAIST网络安全研究中心的研究团队提出了一种新的技术方法,他们试图引入无监督学习来解决当前对抗性攻击检测所面临的一些挑战。实验表明,利用模型的可解释性和对抗攻击之间的内在联系,可以发现哪些数据样本可能会受到了对抗干扰。

CMU和KAIST研究人员提出的新技术的背后逻辑是:当图像受到对抗性扰动时,通过可解释性算法运行图像可产生异常结果。卡内基梅隆大学博士Gihyuk Ko表示,“我们的研究是从简单观察开始的,即在输入中加入小噪声会导致它们的解释产生巨大的差异”。

CMU团队认为,该方法的主要优点是不受攻击的影响,而且不需要训练特定的对抗技术。

相比之下,无监督方法不需要预训练生成对抗性示例,因而在计算成本上更有优势。此外,它还可以推广到一些未知攻击(即以前未训练过的攻击)。

目前,这项研究方法已受邀在2021 KDD  (Knowledge Discovery and Data Mining)对抗性机器学习研讨会(AdvML)上进行了展示。

内容中包含的图片若涉及版权问题,请及时与我们联系删除