Model Inversion Attacks Through Target-Specific Conditional Diffusion Models

2024年07月16日
  • 简介
    模型反演攻击(MIAs)旨在从目标分类器的训练集中重建私有图像,从而在AI应用中引起隐私问题。以往基于GAN的MIAs往往由于GAN固有的缺陷和潜在空间内的偏置优化而受到生成保真度的影响。为了缓解这些问题,我们利用扩散模型的显著合成能力,提出了基于扩散的模型反演(Diff-MI)攻击。具体而言,我们引入了一种新颖的目标特定条件扩散模型(CDM),以有意识地逼近目标分类器的私有分布并实现卓越的准确度和保真度平衡。我们的方法涉及两个学习步骤。第一步采用预训练-微调的方式将目标分类器整合到整个CDM学习中,通过在预训练中创建伪标签作为模型条件,并在微调中使用图像预测调整指定层。第二步提出了一种迭代图像重建方法,通过扩散先验和目标知识的组合进一步增强攻击性能。此外,我们提出了一种改进的最大边界损失,用top-k最大值替换硬最大值,充分利用目标分类器的特征信息和软标签。广泛的实验表明,Diff-MI显著提高了生成保真度,在各种数据集和模型上平均降低了20%的FID,同时保持了与最先进方法相比的竞争性攻击准确性。我们将发布我们的代码和模型。
  • 图表
  • 解决问题
    本论文旨在解决模型反演攻击(MIAs)的问题,即从目标分类器的训练集中重建私有图像,从而引起人工智能应用中的隐私问题。
  • 关键思路
    本文提出了一种基于扩散模型的模型反演攻击方法(Diff-MI),旨在通过引入一个新的目标特定的条件扩散模型(CDM)来改善生成保真度,并提高攻击准确性。
  • 其它亮点
    本文提出的方法在攻击准确性方面与现有方法相当,同时在多个数据集和模型上平均降低了20%的FID,证明了其在生成保真度方面的显着改进。此外,本文还提出了一种改进的最大边际损失,用于充分利用目标分类器的特征信息和软标签。
  • 相关研究
    最近的相关研究包括GAN-based MIAs和其他模型反演攻击方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论