LaTable: Towards Large Tabular Models

2024年06月25日
  • 简介
    表格数据是最常见的数据形式之一,但是与文本和视觉数据相比,关于表格生成基础模型的文献远远落后。由于不同表格数据集的异构特征空间、表格元数据(例如数据集描述和特征标题)以及缺乏先前知识(例如特征顺序),创建这样的模型是困难的。在这项工作中,我们提出了LaTable:一种新颖的表格扩散模型,它解决了这些挑战,并可以在不同的数据集上进行训练。通过广泛的实验,我们发现LaTable在内部生成方面优于基线,并且微调LaTable可以使用更少的样本更好地生成外部数据集。另一方面,我们探索了LaTable的零样本性能差的原因,以及它对我们构建具有更好的零样本和少样本生成能力的生成式表格基础模型的启示。
  • 图表
  • 解决问题
    本篇论文试图解决生成式表格模型的问题,包括异构的特征空间、表格元数据和缺乏先验知识等,同时探讨如何提高零样本和少样本情况下的生成能力。
  • 关键思路
    LaTable是一种新型的表格扩散模型,可以跨不同数据集进行训练,并通过引入元学习和自适应正则化等方法来提高模型的泛化能力。
  • 其它亮点
    实验结果表明,LaTable在同分布生成方面优于基线模型,并且在少样本情况下能够更好地生成新的数据集。此外,论文还探讨了LaTable的零样本性能不佳的原因,并提出了一些改进建议。
  • 相关研究
    近期的相关研究包括《TabGAN: Generative Adversarial Networks for Synthetic Tabular Data Generation》、《Towards Robust and Privacy-preserving Text Representations》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论