- 简介我们提出了一种生成具有统计代表性的合成数据的方法。主要目标是在合成数据集中保持原始数据集中存在的特征相关性,同时提供一个舒适的隐私级别,最终可以根据特定客户的需求进行调整。我们详细描述了用于分析原始数据集和生成合成数据点的算法。该方法使用了一个大型与能源相关的数据集进行测试。我们通过可视化相关性图和适当的$\ell^1$型误差规范作为评估指标,在定性(例如)和定量(例如)方面获得了良好的结果。所提出的方法是通用的,不依赖于所使用的测试数据集。我们期望它适用于比此处所示更广泛的上下文。
-
- 图表
- 解决问题生成统计代表性的合成数据
- 关键思路提出一种算法,可以在保持原始数据集中特征相关性的同时生成合成数据,以提供更高的隐私保护水平
- 其它亮点使用大型能源相关数据集进行测试,通过定量和定性的评估指标表现良好,算法具有广泛适用性
- 最近的相关研究包括GAN、VAE等生成模型,以及差分隐私等隐私保护技术
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流