Elijah: Eliminating Backdoors Injected in Diffusion Models via Distribution Shift

简介

扩散模型（DM）已经成为最先进的生成模型，因为它们能够在没有对抗训练的情况下从噪声中生成高质量的图像。然而，最近的研究表明，它们容易受到后门攻击。当一个数据输入（例如一些高斯噪声）被标记上一个触发器（例如一个白色补丁）时，后门模型总是生成目标图像（例如不合适的照片）。然而，有效的防御策略来减轻DM的后门攻击还未得到充分探索。为了填补这一空白，我们提出了第一个针对DM的后门检测和消除框架。我们在涵盖DDPM、NCSN和LDM三种类型的数百个DM上，使用13个采样器对抗3种现有的后门攻击，评估了我们的框架Elijah。广泛的实验表明，我们的方法可以几乎达到100%的检测精度，并将后门效应降低到接近零，而不会显著牺牲模型的效用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决扩散模型（DM）易受后门攻击的问题，并提出了一种检测和去除后门的框架。
关键思路

本文提出的框架名为Elijah，可以对三种类型的DM进行检测和去除后门，同时保持模型的效用。
其它亮点

本文的实验结果表明，Elijah可以几乎100％地检测出后门攻击，并将其影响降至接近于零。此外，本文还使用了13个采样器和3种现有后门攻击进行了广泛的实验。
相关研究

最近的相关研究包括：《Backdoor Attacks on Neural Network Models》、《Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks》等。

Elijah: Eliminating Backdoors Injected in Diffusion Models via Distribution Shift

提问交流

提问交流