- 简介机器学习(ML)模型已经被证明可以从其训练数据集中泄露私人信息。差分隐私(DP)通常通过差分隐私随机梯度下降算法(DP-SGD)实现,已成为限制模型泄露的标准解决方案。尽管最近有所改进,但基于DP-SGD的私有学习方法仍然往往在高隐私($\varepsilon\le1$)和低数据情况下以及私有训练数据集不平衡时遇到困难。为了克服这些限制,我们提出了差分隐私原型学习(DPPL)作为私有转移学习的新范例。DPPL利用公开预训练的编码器从私有数据中提取特征,并生成DP原型,这些原型在嵌入空间中代表每个私有类,并可用于公开推断。由于我们的DP原型可以仅从少数私有训练数据点中获取并且不需要迭代噪声添加,因此它们提供高效的预测和强大的隐私保证,即使在纯DP的概念下也是如此。我们还表明,在利用公共数据进行编码器的预训练之外,隐私效用权衡可以进一步改进:特别地,我们可以从用于训练编码器的公开可用数据点中私下采样我们的DP原型。我们的实验评估采用了四个最先进的编码器、四个视觉数据集和不同的数据和不平衡情况,证明了DPPL在具有挑战性的私有学习设置下具有高性能和强大的隐私保证。
- 图表
- 解决问题本论文旨在解决在隐私保护的情况下,如何进行高效的迁移学习的问题。特别是在高隐私和低数据情况下,以及私有训练数据不平衡的情况下,现有的DP-SGD方法仍然存在问题。
- 关键思路该论文提出了一种新的隐私保护原型学习(DPPL)方法,利用公共预训练编码器从私有数据中提取特征,并生成代表嵌入空间中每个私有类的DP原型,这些原型可以公开发布供推理使用。通过仅从少量私有训练数据中获取DP原型且无需迭代噪声添加,DP原型可以提供高效的预测和强隐私保证,即使在纯DP的情况下也是如此。当利用公共数据超出编码器的预训练时,可以进一步改善隐私效用权衡,特别是可以从用于训练编码器的公共数据点中私下采样DP原型。
- 其它亮点该论文的亮点包括:提出了一种新的DPPL方法,能够在高隐私和低数据情况下进行高效的迁移学习;通过公共预训练编码器从私有数据中提取特征,生成DP原型,提供高效的预测和强隐私保证;在多个数据集和不同的数据和不平衡情况下进行了实验验证,证明了DPPL的高性能和强隐私保证。
- 在这个领域中,最近的相关研究包括:《Differentially Private Transfer Learning》、《Privacy-Preserving Transfer Learning with Domain Adaptation》、《Privacy-Preserving Deep Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢