Preserving correlations: A statistical method for generating synthetic data

2024年03月03日
  • 简介
    我们提出了一种生成具有统计代表性的合成数据的方法。主要目标是在合成数据集中保持原始数据集中存在的特征相关性,同时提供一个舒适的隐私级别,最终可以根据特定客户的需求进行调整。我们详细描述了用于分析原始数据集和生成合成数据点的算法。该方法使用了一个大型与能源相关的数据集进行测试。我们通过可视化相关性图和适当的$\ell^1$型误差规范作为评估指标,在定性(例如)和定量(例如)方面获得了良好的结果。所提出的方法是通用的,不依赖于所使用的测试数据集。我们期望它适用于比此处所示更广泛的上下文。
  • 作者讲解
  • 图表
  • 解决问题
    生成统计代表性的合成数据
  • 关键思路
    提出一种算法,可以在保持原始数据集中特征相关性的同时生成合成数据,以提供更高的隐私保护水平
  • 其它亮点
    使用大型能源相关数据集进行测试,通过定量和定性的评估指标表现良好,算法具有广泛适用性
  • 相关研究
    最近的相关研究包括GAN、VAE等生成模型,以及差分隐私等隐私保护技术
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问