- 简介深度神经网络容易受到后门攻击的威胁,这是一种通过污染训练数据来操纵模型行为的对抗性攻击。干净标签攻击是一种更隐蔽的后门攻击形式,可以在不改变污染数据标签的情况下进行攻击。早期的干净标签攻击方法是向训练集的随机子集添加触发器,忽略了样本对攻击成功的贡献不同的事实,导致了高污染率和低攻击成功率。为了缓解这个问题,提出了几种基于监督学习的样本选择策略。然而,这些方法假设可以访问整个标记的训练集并需要进行训练,这既昂贵又不一定实用。本文研究了一种新的、更实用(但也更具挑战性)的威胁模型,攻击者仅提供目标类别的数据(例如在人脸识别系统中),并且不知道受害者模型或训练集中的任何其他类别。我们研究了不同的策略,以有选择地污染目标类别的少量训练样本,以提高在这种情况下的攻击成功率。我们的威胁模型对于使用第三方数据集训练机器学习模型来说是一个严重的威胁,因为攻击可以在有限的信息下有效地进行。对基准数据集的实验说明了我们的策略在改进干净标签后门攻击方面的有效性。
- 图表
- 解决问题本文旨在解决深度神经网络面临的后门攻击问题,特别是干净标签攻击问题。同时,论文探讨了一种新的威胁模型,即攻击者只提供目标类别的数据,这对于使用第三方数据集进行机器学习模型训练构成了严重威胁。
- 关键思路论文提出了一种选择性污染目标类别训练样本的策略,以提高攻击的成功率。这种策略可以在攻击者仅提供目标类别数据的情况下实现,而不需要访问整个带标签的训练集。
- 其它亮点论文的实验使用了基准数据集,并展示了选择性污染训练样本的策略对于提高干净标签后门攻击的成功率的有效性。同时,这种策略具有更实用性,因为攻击者不需要访问整个带标签的训练集。值得深入研究的是,论文提出的这种威胁模型对于使用第三方数据集进行机器学习模型训练的安全性构成了严重威胁。
- 最近的相关研究包括:《BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain》、《Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks》、《Clean-label Backdoor Attacks on Deep Neural Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢