CTSyn: A Foundational Model for Cross Tabular Data Generation

2024年06月07日
  • 简介
    生成式基础模型(GFMs)已经在图像和文本等模态中产生了具有显著质量的合成数据。然而,将GFMs应用于表格数据会面临重大挑战,原因在于表格特征的内在异质性。现有的跨表学习框架受到了两个限制:缺乏生成模型骨干和异构特征值的解码机制。为了克服这些限制,我们引入了Cross-Table Synthesizer(CTSyn),这是一种专门针对表格数据生成的基础模型,基于扩散算法。CTSyn引入了三个主要组件:聚合器,将异构表格合并为统一的潜在空间;有条件的潜在扩散模型,用于从该空间中进行采样;以及类型特定的解码器,用于从采样的潜在向量中重构各种数据类型的值。对真实世界数据集的广泛测试表明,CTSyn不仅在实用性和多样性方面显著优于现有的表格合成器,而且还可以唯一地提高下游机器学习的性能,超过真实数据可达到的性能,从而建立了一种新的合成数据生成范式。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决对于表格数据生成中存在的异构特征问题,提出一种基于扩散的生成模型Cross-Table Synthesizer(CTSyn)。
  • 关键思路
    CTSyn包括三个主要组件:聚合器、条件潜扩散模型以及类型特定的解码器。CTSyn在实验中表现出比现有的表格生成模型更好的效果和多样性,可以为下游机器学习提供比真实数据更好的表现。
  • 其它亮点
    本文提出的CTSyn模型不仅可以生成高质量的表格数据,而且可以处理异构特征。实验结果显示,CTSyn在效用和多样性方面都优于现有的表格生成模型,并且可以提高下游机器学习的性能。本文使用了真实世界的数据集进行测试,并且提供了开源代码。
  • 相关研究
    最近的相关研究包括:1.《Generating Tabular Data via Conditional GANs》;2.《Tabular GAN: Generative Adversarial Networks for Synthesizing Tabular Data》;3.《Data Augmentation using Deep Generative Models for Improved Healthcare Analytics》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问