- 简介数据中毒后门攻击是机器学习模型面临的严重安全威胁,攻击者可以操纵训练数据集来注入后门。本文关注训练中的后门防御,旨在训练一个干净的模型,即使数据集可能被潜在地毒害。与大多数现有方法主要检测和删除/遗忘可疑样本以减轻恶意后门攻击不同,我们提出了一种新颖的防御方法,称为PDB(主动防御后门)。具体而言,PDB利用防御者的“主场优势”,在训练过程中主动向模型注入防御后门。利用控制训练过程的优势,防御后门被设计为有效地压制恶意后门,同时对攻击者保持秘密。此外,我们引入可逆映射来确定防御目标标签。在推理过程中,PDB在输入中嵌入防御触发器并反转模型的预测,压制恶意后门并确保模型在原始任务上的效用。在各种数据集和模型上的实验结果表明,我们的方法在防御各种后门攻击方面实现了最先进的防御性能。
- 图表
- 解决问题论文旨在解决机器学习模型中数据污染后门攻击的安全威胁问题,提出一种新的训练方法以在可能被污染的数据集上训练出干净的模型。
- 关键思路论文提出了一种名为PDB(Proactive Defensive Backdoor)的防御方法,通过在训练过程中主动注入防御性后门来有效地抑制恶意后门攻击。
- 其它亮点论文的实验结果表明,PDB方法在各种数据集和模型上均取得了最先进的防御性能。论文还提出了可逆映射来确定防御目标标签,并在推理过程中嵌入防御触发器,抑制恶意后门并确保模型在原始任务上的效用。
- 与此相关的研究包括:Backdoor Attacks and Defenses in Deep Learning:A Survey、DeepInspect: A Black-box Trojan Detection and Mitigation Framework for Deep Learning、Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering等。
沙发等你来抢
去评论
评论
沙发等你来抢