- 简介扩散模型容易受到后门攻击,即攻击者在训练阶段通过污染部分训练样本注入后门。这对通过API查询扩散模型或直接从互联网下载模型的下游用户构成了严重威胁。为了减轻后门攻击的威胁,已经进行了大量的后门检测研究。然而,这些方法中没有一个专门为扩散模型设计的后门检测方法,使得这个领域的研究相对较少。此外,这些先前的方法主要关注分类任务中传统神经网络的后门检测,不能轻松地适应于生成任务的后门检测。此外,大多数先前的方法需要模型权重和架构的白盒访问,或者概率日志作为额外信息,这并不总是切实可行的。在本文中,我们提出了一个基于输入级别的后门检测统一框架(UFID)用于扩散模型,这是由扩散模型的观察所激发的,并通过理论因果分析进一步验证。在不同数据集上进行的广泛实验,包括条件和无条件的扩散模型,表明我们的方法在检测效果和运行时效率方面都达到了出色的表现。代码可在https://github.com/GuanZihan/official_UFID上获得。
-
- 图表
- 解决问题本论文旨在解决扩散模型在训练阶段遭受恶意攻击的后门问题,提出了一种针对扩散模型的后门检测方法。
- 关键思路论文提出了一种统一框架的输入级后门检测方法(UFID),通过对扩散模型的观察和理论因果分析得出。相比以往的方法,该方法不需要白盒访问模型权重和架构,也不需要概率对数作为额外信息。
- 其它亮点论文在不同数据集上对条件和无条件扩散模型进行了广泛实验,并展示了该方法在检测效率和运行时间效率方面的卓越表现。该方法的代码已经在github上开源。
- 近年来,已经有许多关于后门攻击和检测的研究,但是还没有专门针对扩散模型的后门检测方法。此外,大多数现有方法主要关注传统神经网络在分类任务上的后门检测,而难以轻易地适应生成任务中的后门检测。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流