- 简介我们的工作提供了一种新颖的解缠机制来构建高效的预训练净化方法。不可学习样本(UEs)试图通过对正确标记的训练样本进行微小修改来最大化测试误差。针对这些污染攻击的防御措施可以根据是否在训练期间采取特定干预措施进行分类。第一种方法是训练期间的防御,例如对抗训练,可以缓解污染效应,但计算密集。另一种方法是预训练净化,例如图像短压缩,它由几个简单的压缩组成,但通常在处理各种UE时会遇到挑战。我们的研究提供了一种新颖的解缠机制,以构建高效的预训练净化方法。首先,我们揭示了速率受限变分自编码器(VAEs)的特性,表现出抑制UE中扰动的明显倾向。随后,我们对这种现象进行了理论分析。基于这些见解,我们引入了一种解缠变分自编码器(D-VAE),能够用可学习的类别嵌入来解缠扰动。基于这个网络,自然地发展出了一个两阶段净化方法。第一阶段重点是粗略地消除扰动,而第二阶段则产生精细的、无毒的结果,确保在各种情况下的有效性和鲁棒性。广泛的实验表明,我们的方法在CIFAR-10、CIFAR-100和一个100类ImageNet子集上表现出了卓越的性能。代码可在https://github.com/yuyi-sd/D-VAE上找到。
- 图表
- 解决问题本文旨在解决对抗样本攻击(UEs)对深度学习模型的毒化效应,提出了一种有效的预训练净化方法。
- 关键思路本文提出了一种基于可学习类别嵌入的解缠结自编码器(D-VAE)来消除UEs,该方法分为两个阶段,第一阶段粗略消除扰动,第二阶段产生精细的无毒结果。
- 其它亮点本文提出的D-VAE方法在CIFAR-10、CIFAR-100和100类ImageNet子集上表现出了显着的性能,代码已经开源。
- 最近在这个领域中,一些相关的研究包括:adversarial training和image short squeezing等预训练净化方法。
沙发等你来抢
去评论
评论
沙发等你来抢