- 简介随着深度学习模型在各行各业的部署不断扩大,针对这些部署模型的恶意入侵威胁不断增加。如果攻击者通过服务器入侵、内部攻击或模型反演技术获得了部署模型的访问权限,他们就可以构建白盒对抗攻击来操纵模型的分类结果,从而对依赖这些模型执行关键任务的组织造成重大风险。模型所有者需要一种机制来保护自己免受此类损失,而不需要获取新的训练数据,这通常需要大量的时间和资本投资。 在本文中,我们探讨了生成多个具有不同攻击属性的模型版本的可行性,而不需要获取新的训练数据或更改模型架构。模型所有者可以一次部署一个版本,并立即用新版本替换泄漏的版本。新部署的模型版本可以抵抗白盒访问生成的对抗攻击,这些攻击针对先前泄漏的一个或所有版本。我们理论上证明,这可以通过将参数化的隐藏分布纳入模型训练数据中来实现,从而迫使模型学习由所选数据唯一定义的与任务无关的特征。此外,隐藏分布的最佳选择可以产生一系列模型版本,能够随时间抵御复合可转移攻击。利用我们的分析洞见,我们设计并实现了一种用于DNN分类器的实用模型版本控制方法,这种方法比现有方法显著提高了鲁棒性。我们相信,我们的工作为保护DNN服务超出其初始部署提供了一个有前途的方向。
- 图表
- 解决问题如何在不获取新的训练数据或更改模型架构的情况下,生成具有不同攻击特性的多个模型版本来保护模型所有者免受恶意攻击的损失?
- 关键思路将参数化的隐藏分布纳入模型训练数据中,强制模型学习由所选择的数据唯一定义的与任务无关的特征,从而生成能够抵抗先前泄露的模型版本的白盒对抗攻击的新版本。
- 其它亮点论文提出了一种实用的DNN分类器模型版本控制方法,可以显著提高模型的鲁棒性。实验使用了多个数据集,并展示了该方法的有效性。论文提供了开源代码。
- 最近的相关研究包括:《Defending Against Adversarial Examples Through an Ensemble of Specialists》、《Adversarial Reprogramming of Neural Networks》、《Adversarial Examples Are Not Bugs, They Are Features》等。
沙发等你来抢
去评论
评论
沙发等你来抢