TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes

2024年06月28日
  • 简介
    企业越来越需要识别数据湖中相关的表格,例如可以进行联合、连接或相互包含的表格。表格神经模型可以帮助进行这种数据发现任务。本文介绍了TabSketchFM,一种用于数据湖数据发现的神经表格模型。首先,我们提出了一种新颖的基于草图的预训练方法,以增强神经表格模型中的数据发现技术的有效性。其次,为了进一步微调预训练模型以适应多个下游任务,我们开发了LakeBench,这是一个包含8个基准测试的集合,可帮助完成不同的数据发现任务,例如查找可以联合、连接或相互包含的表格。然后,我们展示了在这些微调任务上,TabSketchFM相对于现有神经模型实现了最先进的性能。第三,我们使用这些微调模型来搜索可以联合、连接或相互包含的表格。我们的结果表明,在搜索中,与现有技术相比,F1得分有所提高(甚至在连接搜索基准测试中提高了70%)。最后,我们展示了跨数据集和任务的显着转移,证明我们的模型可以在不同的数据湖上跨越不同的任务进行泛化。
  • 作者讲解
  • 图表
  • 解决问题
    TabSketchFM提出了一种神经表格模型,用于在数据湖中进行数据发现,特别是识别可联合、可连接或子集的相关表格。论文试图解决数据湖中表格识别的问题。
  • 关键思路
    论文提出了一种基于草图的预训练方法,以增强神经表格模型中数据发现技术的有效性。通过开发LakeBench,对预训练模型进行进一步微调,以适应多个下游任务。TabSketchFM在搜索可联合、可连接或子集的表格时,与现有神经模型相比取得了最先进的性能。
  • 其它亮点
    论文提出了一种基于草图的预训练方法,以增强神经表格模型中数据发现技术的有效性。通过开发LakeBench,对预训练模型进行进一步微调,以适应多个下游任务。实验结果表明,TabSketchFM在搜索可联合、可连接或子集的表格时,与现有神经模型相比取得了最先进的性能。论文还展示了模型在不同数据集和任务之间的显著转移,证明了模型可以在不同的数据湖上进行泛化。
  • 相关研究
    在这个领域中,最近的相关研究包括:1)Table2Vec: Neural Word and Entity Embeddings for Table Population and Retrieval;2)TabNet: Attentive Interpretable Tabular Learning;3)Neural Execution of Graph Algorithms。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问