- 简介本文旨在生成具有高机器学习效用(MLu)的异构(混合类型)表格数据的合成数据。考虑到 MLu 性能依赖于准确近似条件分布,我们着重于设计一种基于条件分布估计的合成数据生成方法。我们提出了一种新颖的合成数据生成方法 MaCoDE,通过重新定义掩码语言建模(MLM)的多类分类任务为基于直方图的非参数条件密度估计。我们的方法可以估计任意目标和条件变量组合的条件密度。此外,我们证明了我们的方法弥补了分布学习和 MLM 之间的理论差距。为了验证我们提出的模型的有效性,我们在 10 个真实世界数据集上进行了合成数据生成实验。鉴于 MLM 中预测掩码输入令牌和缺失数据插补之间的类比,我们还评估了在具有各种缺失数据机制的不完整数据集上的多重插补性能。此外,我们提出的模型具有在不需要重新训练的情况下调整数据隐私级别的优点。
- 图表
- 解决问题本文旨在生成具有高机器学习效用的异构(混合类型)表格数据的合成数据。通过准确地近似条件分布来提高机器学习效用(MLu)性能,因此我们专注于设计一种基于条件分布估计的合成数据生成方法。
- 关键思路我们提出了一种新的合成数据生成方法MaCoDE,通过重新定义掩码语言建模(MLM)的多类分类任务为基于直方图的非参数条件密度估计。我们的方法使得可以在任意组合的目标和条件变量之间估计条件密度。此外,我们证明了我们的方法弥合了分布学习和MLM之间的理论差距。
- 其它亮点本文在10个真实世界的数据集上进行了合成数据生成实验,验证了我们提出的模型的有效性。鉴于MLM中预测掩码输入令牌和缺失数据插补之间的类比,我们还评估了在具有各种缺失数据机制的不完整数据集上的多重插补性能。此外,我们提出的模型具有调整数据隐私级别的优点,而无需重新训练。
- 最近在这个领域中,还有一些相关的研究,如基于生成对抗网络(GAN)的数据合成方法和基于变分自编码器(VAE)的数据合成方法。
沙发等你来抢
去评论
评论
沙发等你来抢