- 简介扩散模型(DM)已经成为最先进的生成模型,因为它们能够在没有对抗训练的情况下从噪声中生成高质量的图像。然而,最近的研究表明,它们容易受到后门攻击。当一个数据输入(例如一些高斯噪声)被标记上一个触发器(例如一个白色补丁)时,后门模型总是生成目标图像(例如不合适的照片)。然而,有效的防御策略来减轻DM的后门攻击还未得到充分探索。为了填补这一空白,我们提出了第一个针对DM的后门检测和消除框架。我们在涵盖DDPM、NCSN和LDM三种类型的数百个DM上,使用13个采样器对抗3种现有的后门攻击,评估了我们的框架Elijah。广泛的实验表明,我们的方法可以几乎达到100%的检测精度,并将后门效应降低到接近零,而不会显著牺牲模型的效用。
-
- 图表
- 解决问题本文旨在解决扩散模型(DM)易受后门攻击的问题,并提出了一种检测和去除后门的框架。
- 关键思路本文提出的框架名为Elijah,可以对三种类型的DM进行检测和去除后门,同时保持模型的效用。
- 其它亮点本文的实验结果表明,Elijah可以几乎100%地检测出后门攻击,并将其影响降至接近于零。此外,本文还使用了13个采样器和3种现有后门攻击进行了广泛的实验。
- 最近的相关研究包括:《Backdoor Attacks on Neural Network Models》、《Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流