Diffusion Denoising as a Certified Defense against Clean-label Poisoning

2024年03月18日
  • 简介
    我们提出了一种认证的防御方法来应对干净标签污染攻击。这些攻击通过向训练数据注入少量(例如1%)的污染样本(包含p范数受限的对抗扰动),从而诱导测试时输入的有针对性错误分类。受到去噪平滑实现的对抗鲁棒性的启发,我们展示了一个现成的扩散模型如何对篡改的训练数据进行消毒。我们对七种干净标签污染攻击进行了广泛的测试,并将它们的攻击成功率降低到0-16%,同时测试时间准确率只有微不足道的下降。我们将我们的防御与现有的对抗干净标签污染的对策进行了比较,结果表明我们的防御能够最大程度地降低攻击成功率并提供最佳的模型效用。我们的结果强调了未来需要开展更强大的干净标签攻击的研究,并将我们的认证但实用的防御作为评估这些攻击的强有力基线。
  • 图表
  • 解决问题
    本文旨在提出一种认证的防御方法来应对干净标签毒化攻击,即将少量的毒化样本注入训练数据中,以诱导测试时输入的有针对性的错误分类。
  • 关键思路
    本文提出使用现成的扩散模型来消除被篡改的训练数据,从而实现对干净标签毒化攻击的防御。
  • 其它亮点
    本文在7种干净标签毒化攻击下进行了广泛测试,仅对测试时间准确性造成微不足道的影响,将攻击成功率降低到0-16%。与现有的防御措施相比,本文的防御措施将攻击成功率降低得最多,提供了最佳的模型效用。
  • 相关研究
    相关研究包括干净标签毒化攻击和防御方法的研究,例如“Clean-label adversarial attacks”和“Certified Adversarial Robustness via Randomized Smoothing”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论