Wicked Oddities: Selectively Poisoning for Effective Clean-Label Backdoor Attacks

2024年07月15日
  • 简介
    深度神经网络容易受到后门攻击的威胁,这是一种通过操纵训练数据来影响模型行为的对抗攻击。干净标签攻击是后门攻击的一种更隐蔽的形式,可以在不改变毒化数据的标签的情况下进行攻击。早期的干净标签攻击将触发器添加到训练集的随机子集中,忽略了样本对攻击成功的贡献不同的事实。这导致了高污染率和低攻击成功率。为了缓解这个问题,提出了几种基于监督学习的样本选择策略。然而,这些方法假定可以访问整个标记的训练集并进行训练,这既昂贵又可能不实际。本文研究了一种新的、更实际(但也更具挑战性)的威胁模型,即攻击者仅提供目标类别的数据(例如在人脸识别系统中),并且没有关于受害者模型或训练集中任何其他类别的知识。我们研究了不同的策略,以选择性地污染目标类别中的少量训练样本,以提高此设置下的攻击成功率。我们的威胁模型在使用第三方数据集训练机器学习模型时构成了严重的威胁,因为攻击可以在有限的信息下有效地执行。基准数据集上的实验说明了我们的策略在改善干净标签后门攻击方面的有效性。
  • 图表
  • 解决问题
    本篇论文试图解决深度神经网络中的干净标签后门攻击问题,尤其是针对只提供目标类别数据的情况下的攻击。
  • 关键思路
    本文提出了一种新的针对干净标签后门攻击的解决方案,该方案能够有效地提高攻击成功率,同时不需要访问整个标记数据集或进行训练。
  • 其它亮点
    本文提出的方案在基准数据集上进行了实验,并展示了其在提高攻击成功率方面的有效性。此外,本文还探讨了其他相关的工作和值得进一步研究的方向。
  • 相关研究
    最近的相关研究包括:《Clean-label Backdoor Attacks on Deep Learning Models》、《BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论