- 简介机器学习在各个领域的不断应用需要强大的方法来生成合成表格数据。数据应该保留关键特征,同时解决数据稀缺的挑战。目前基于生成对抗网络的方法,例如最先进的CTGAN模型,在处理表格数据中固有的复杂结构时存在困难。这些数据通常包含具有非高斯分布的连续和离散特征。因此,我们提出了一种新颖的基于变分自编码器(VAE)的模型来解决这些限制。受TVAE模型的启发,我们的方法将贝叶斯高斯混合模型(BGM)纳入VAE架构中。这避免了假设严格高斯潜在空间所带来的限制,从而在数据生成过程中更准确地表示底层数据分布。此外,我们的模型通过允许使用各种可微分分布来处理各个特征,提供了更强的灵活性,使其能够处理连续和离散数据类型。我们在三个混合数据类型的真实世界数据集上进行了全面验证,其中包括两个与医疗相关的数据集,根据它们的相似性和实用性进行选择。这项评估表明,相对于CTGAN和TVAE,我们的模型表现出显著的优势,证明了它在各个领域中生成合成表格数据的潜力,特别是在医疗领域。
- 图表
- 解决问题提出了一种基于变分自编码器和贝叶斯高斯混合模型的方法,用于生成保留关键特征的合成表格数据。该方法旨在解决当前生成对抗网络在处理复杂结构的表格数据时的局限性。
- 关键思路本文提出的方法在变分自编码器中嵌入贝叶斯高斯混合模型,避免了严格假定高斯潜在空间的限制,同时允许使用不同的可微分分布来处理连续和离散数据类型。
- 其它亮点本文在三个真实世界数据集上进行了充分的验证,包括两个医学相关数据集。实验结果表明,该方法在生成合成表格数据方面显著优于当前最先进的方法,证明了其在各个领域生成合成数据的潜力。
- 最近的相关研究包括CTGAN和TVAE模型。
沙发等你来抢
去评论
评论
沙发等你来抢