表格数据是一种常见的数据组织形式。 有多种模型可用于生成观察独立的合成表格数据集,但很少有模型能够生成关系数据集。 对关系数据建模具有挑战性,因为它需要对“父”表及其跨表关系建模。

本文介绍了 REaLTabFormer(Realistic Relational and Tabular Transformer),一种表格和关系合成数据生成模型。 它首先使用自回归 GPT-2 模型创建父表,然后使用Seq2Seq模型生成以父表为条件的关系数据集。 我们实施目标掩蔽以防止数据复制,并提出 Qδ 统计和统计引导来检测过度拟合。 使用真实世界数据集的实验表明,REaLTabFormer 比基线模型更能捕获关系结构。 REaLTabFormer 还为大型非关系数据集“开箱即用”地实现了预测任务的最先进结果,无需微调。

论文标题:REaLTabFormer: Generating Realistic Relational and Tabular Data using Transformers

论文链接:https://arxiv.org/pdf/2302.02041.pdf

代码链接:https://github.com/avsolatorio/REaLTabFormer

内容中包含的图片若涉及版权问题,请及时与我们联系删除