PureEBM: Universal Poison Purification via Mid-Run Dynamics of Energy-Based Models

2024年05月28日
  • 简介
    数据污染攻击对机器学习模型的完整性构成了重大威胁,因为它会在训练过程中注入对抗性示例,导致目标分布测试数据的错误分类。现有的最先进防御方法存在各种限制,如显著降低泛化性能、特定于特定攻击类型和分类器,以及在训练过程中存在显著的开销,使它们在实际应用中不切实际或受限。为了应对这一挑战,我们引入了一种通用的数据净化方法,通过应用一种通用的随机预处理步骤$\Psi_{T}(x)$,即对一个图像$x$进行迭代Langevin采样的收敛能量基模型(EBM)进行防御,从而保护自然训练的分类器免受恶意的白盒、灰盒和黑盒图像污染。$\Psi_{T}(x)$的中间运行动态以最小的影响对分类器网络泛化重要的特征进行污染信息净化。我们展示了EBM的对比学习过程使其能够保持通用的净化剂,即使存在污染的EBM训练数据,也能够在领先的触发毒草Narcissus和无触发毒草Gradient Matching和Bullseye Polytope上实现最先进的防御。本文是PureGen框架的一个子集,更详细地关注EBM净化和毒草防御。
  • 图表
  • 解决问题
    解决数据污染攻击对机器学习模型的威胁问题,提高模型的完整性。
  • 关键思路
    通过应用一个通用的随机预处理步骤,即迭代Langevin采样,来净化数据,从而防御白盒、灰盒和黑盒图像污染攻击。利用能量基模型的对比学习过程使其保持通用性,即使在受污染的EBM训练数据存在的情况下,也可以实现SoTA防御。
  • 其它亮点
    实验结果表明,该方法可以在多个数据集上实现SoTA的防御效果,且对分类器的泛化性能影响较小。此外,该方法具有通用性,适用于不同类型的攻击。
  • 相关研究
    相关研究包括:PureGen框架和其他一些防御方法,如分布式训练和对抗训练等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论