- 简介训练时数据污染攻击会在训练过程中引入对抗性样本,导致错误分类,威胁到机器学习模型的安全。目前的防御方法通常会降低泛化性能,是针对特定攻击的,并且会带来重大的训练开销。为了解决这个问题,我们引入了一组通用的数据净化方法,使用随机变换$\Psi(x)$,通过基于能量的模型(EBMs)、去噪扩散概率模型(DDPMs)或两者的迭代 Langevin 动力学来实现。这些方法可以在最小程度上影响分类器的泛化能力,净化被污染的数据。我们特别训练了 EBMs 和 DDPMs,在 CIFAR-10、Tiny-ImageNet 和 CINIC-10 上对各种攻击(包括自恋者、靶心多面体、梯度匹配)提供最先进的防御,而无需攻击或分类器特定的信息。我们讨论了性能权衡,并表明即使在被污染或分布偏移的生成模型训练数据的情况下,我们的方法仍然非常有效。
- 图表
- 解决问题解决问题:该论文旨在解决训练数据污染攻击对机器学习模型的影响问题,提出一种基于随机变换的数据净化方法,以提高分类器的鲁棒性和泛化性能。
- 关键思路关键思路:论文提出使用能量基模型(EBMs)和去噪扩散概率模型(DDPMs)的随机变换方法,通过迭代Langevin动力学来净化污染数据,从而提高分类器的鲁棒性和泛化性能。
- 其它亮点其他亮点:论文使用CIFAR-10、Tiny-ImageNet和CINIC-10等数据集进行实验,证明了该方法在不需要攻击或分类器特定信息的情况下,对各种攻击(包括Narcissus、Bullseye Polytope、Gradient Matching)都具有最先进的防御能力。此外,该方法在污染或分布发生偏移的生成模型训练数据的情况下仍然非常有效。
- 相关研究:最近的相关研究包括“Adversarial Training Methods for Semi-Supervised Text Classification”和“Adversarial Defense by Restricting the Hidden Space of Deep Neural Networks”,等等。
沙发等你来抢
去评论
评论
沙发等你来抢