CBPF: Filtering Poisoned Data Based on Composite Backdoor Attack

2024年06月23日
  • 简介
    本文探讨了通过筛选污染样本来减轻后门攻击风险的策略。后门攻击涉及将含有触发器的有限数量的毒瘤样本注入到训练数据集中。在推理阶段,后门攻击可以对正常样本保持高水平的准确性,但当出现包含触发器的实例时,模型可能会错误地将其预测为攻击者指定的目标类。本文主要利用后门攻击的两个关键特征:多个后门可以同时存在于单个模型中,并且通过组合后门攻击(CBA)发现,将样本中的两个触发器更改为新的目标标签不会损害触发器的原始功能,但当两个触发器同时存在时,可以将数据预测为新的目标类。因此,提出了一种新的三阶段污染数据过滤方法,称为组合后门毒瘤过滤(CBPF),作为有效解决方案。实验结果表明,CBPF在CIFAR10和ImageNet-12上成功过滤了六种高级攻击产生的恶意数据。平均而言,CBPF在CIFAR10上的六次攻击中取得了显着的过滤成功率99.91%。此外,对未受污染的样本进行训练的模型表现出持续的高准确性水平。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在通过研究污染样本的过滤,探索减轻后门攻击风险的策略。作者发现后门攻击具有多个后门同时存在于单个模型中的能力,同时发现通过组合后门攻击可以将两个触发器更改为新的目标标签,从而使数据预测为新的目标类。因此,作者提出了一种新颖的三阶段污染数据过滤方法,称为组合后门毒素过滤(CBPF)。
  • 关键思路
    CBPF方法主要有三个步骤:首先,使用被污染和清洁实例之间的输出差异来划分数据子集。其次,加入良性触发器并调整标签,创建新的目标和良性目标类,从而在推理阶段将污染和清洁数据分类为不同的实体。最后,使用过滤后的数据训练模型。
  • 其它亮点
    本文在CIFAR10和ImageNet-12数据集上对CBPF进行了六种高级攻击的实验。结果表明,CBPF成功过滤了这六种攻击中的恶意数据,并且在CIFAR10上平均达到了99.91%的过滤成功率。此外,使用未受污染的样本训练的模型表现出持续的高准确性水平。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Defending Against Backdoor Attacks Using Input Preprocessing Techniques》、《STRIP: A Defence Against Trojan Attacks on Deep Neural Networks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问