Explaining the Model, Protecting Your Data: Revealing and Mitigating the Data Privacy Risks of Post-Hoc Model Explanations via Membership Inference

2024年07月24日
  • 简介
    预测性机器学习模型越来越多地在涉及敏感个人数据的高风险场景中得到应用;在这些情况下,模型可解释性和数据隐私之间存在权衡。在本文中,我们推动了这种权衡的界限:我们重点关注图像分类微调的基础模型,并揭示了事后模型解释的意想不到的隐私风险,并随后提供了缓解此类风险的策略。首先,我们构建了VAR-LRT和L1/L2-LRT两种基于特征归因解释的成员推断攻击,它们比现有的解释利用攻击更加成功,尤其是在低误报率的情况下,这使得攻击者可以有信心地识别特定的训练集成员。其次,我们通过实验证明,优化的差分隐私微调显著降低了上述攻击的成功率,同时保持了高模型准确性。我们对我们的两种新攻击进行了系统的实证研究,使用了5种视觉变换器架构、5个基准数据集、4种最先进的事后解释方法和4种隐私强度设置。
  • 图表
  • 解决问题
    本文旨在探讨在高风险情境下使用预测机器学习模型的可解释性和数据隐私之间的平衡问题,并揭示后续模型解释的隐私风险,并提供相应的缓解策略。
  • 关键思路
    通过构建VAR-LRT和L1/L2-LRT两种新的成员推理攻击来揭示基于特征归因解释的隐私风险,并发现经过优化的差分隐私微调可以显著减少攻击的成功率,同时保持高模型准确性。
  • 其它亮点
    本文实验采用了5种视觉变换器架构、5个基准数据集、4种最先进的后续解释方法和4种隐私强度设置进行了系统的实证研究。优化的差分隐私微调可以显著减少攻击的成功率,同时保持高模型准确性。
  • 相关研究
    最近在这个领域中,还有一些相关的研究被进行,例如:Towards Privacy-Preserving Visual Recognition via Adversarial Training,Membership Inference Attacks and Defenses in Deep Learning: A Survey等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论