Data Analytics with Differential Privacy

简介

本文研究了差分隐私（Differential privacy）在分布式和流数据分析中的应用。差分隐私是保护隐私的最先进定义，保证对敏感数据集的任何分析都不会泄露其中包含的个人信息。在分布式模型中，本文考虑了学习全局数据模型的问题，该模型可以在随后的任意分析中使用，同时保证了所有本地数据集的差分隐私保证。本文提出了三种新的方法来从分布式数据中学习全局贝叶斯网络，利用PrivBayes作为基础，将一个高维分布的中心数据集近似为低阶分布的乘积。在流模型中，本文关注估计用户流的密度问题，该密度表示实际出现在流中的所有用户的比例。本文提供了流模型中最强的隐私保证，即用户级别的泛隐私（user-level pan-privacy），确保任何用户的隐私都得到保护，即使是对抗者观察算法的内部状态。本文对现有的基于采样的算法进行了详细的分析，并提出了两个新的修改，通过最优地利用所有分配的“隐私预算”，在理论和实验上都有了显著的改进。
图表
解决问题

本论文旨在开发分布式和流式数据的差分隐私算法，解决学习全局模型和估计用户流的问题。
关键思路

论文提出了三种新的方法来从分布式数据中学习全局贝叶斯网络，并保证所有本地数据集的差分隐私保证。此外，论文还提出了两种新的修改方法来优化现有的基于采样的算法，以估计用户流的密度。
其它亮点

论文提供了一个详细的理论分析，使用合成和真实世界数据进行了详细的实验评估。在流式数据中，论文提供了一种最强的隐私保证，即用户级pan隐私，保护任何用户的隐私，即使是对内部状态进行观察的对手。此外，论文还提供了两种新的修改方法，以优化现有的基于采样的算法。
相关研究

在这个领域中，最近的相关研究包括：1. Differential Privacy: A Survey of Results，2. Deep Learning with Differential Privacy，3. Scalable and Differentially Private Distributed Data Summarization，4. Differentially Private Empirical Risk Minimization，5. The Algorithmic Foundations of Differential Privacy。

Data Analytics with Differential Privacy

评论