OSLO: One-Shot Label-Only Membership Inference Attacks

2024年05月27日
  • 简介
    我们介绍了一种称为单次标签攻击(OSLO)的成员推断攻击方法,它可以使用仅一个查询就能准确地推断出给定样本是否属于目标模型的训练集,并且精度很高,而目标模型仅返回预测的硬标签。这与现有的标签攻击方法形成对比,后者需要大约6000个查询,但攻击精度低于OSLO的攻击精度。OSLO利用基于转移的黑盒对抗攻击。其核心思想是成员样本比非成员样本对抗扰动更具有抵抗力。我们将OSLO与现有的标签攻击方法进行比较,并证明尽管只需要一个查询,但在相同的误判率下,我们的方法在精度和真正例率方面显著优于以前的攻击方法。例如,与以前的标签攻击方法相比,在CIFAR10上,对于ResNet模型,在0.1\%的误判率下,OSLO的真正例率是以前攻击方法的7倍到28倍。我们评估了多种防御机制来对抗OSLO攻击。
  • 图表
  • 解决问题
    本论文旨在通过提出一种新的成员推理攻击方法来解决成员推理攻击问题,并验证其有效性。这是否是一个新问题?
  • 关键思路
    论文提出了一种名为One-Shot Label-Only (OSLO)的成员推理攻击方法,利用目标模型返回的预测硬标签,仅使用一次查询即可高精度地推断出给定样本是否属于目标模型的训练集。相比当前领域的研究,OSLO的核心思想是成员样本比非成员样本更具有抗干扰性。
  • 其它亮点
    论文通过与现有的成员推理攻击方法进行比较,证明了OSLO方法在相同的误报率下具有更高的准确性和真阳性率。实验结果表明,在CIFAR10数据集上,对于ResNet模型,OSLO在0.1%误报率下的真阳性率是现有方法的7倍到28倍。此外,论文还对多种防御机制进行了评估。论文使用了CIFAR10和ImageNet数据集,并开源了代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如,2019年的论文《Membership Inference Attacks against Machine Learning Models》提出了一种基于概率模型的成员推理攻击方法;2020年的论文《Practical Membership Inference Attacks against Machine Learning》提出了一种基于决策树的成员推理攻击方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论