4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs

2024年04月28日
  • 简介
    尽管关系型数据库存储了大量丰富、信息丰富的数据,这些数据分布在相互连接的表中,但将预测机器学习模型应用于这些任务的进展,与计算机视觉或自然语言处理等其他领域的进展相比,可能落后了很多。这种不足部分源于缺乏用于训练和评估目的的已建立/公共关系型数据库基准。因此,迄今为止,相关模型开发通常默认为在普遍的单表基准上训练的表格方法,或者在关系侧上,是应用于完全不具有表格特征的图形数据集的基于图形的替代方法,例如GNN。为了更精确地针对处于这两个互补领域交汇处的关系型数据库,我们探索了一类基于基线模型的广泛模型,其基础是:(i)使用各种策略将多表数据集转换为图形,配备有效的子采样,同时保留表格特征;(ii)可训练模型具有良好匹配的归纳偏差,根据这些输入子图输出预测。然后,为了解决适当的公共基准的匮乏和减少孤立的比较,我们组装了一个多样化的收集,包括(i)大规模关系型数据库数据集和(ii)相应的预测任务。从交付的角度来看,我们在一个名为4DBInfer的统一、可扩展的开源工具箱中实现了上述4个探索维度(4D)。最后,我们通过使用4DBInfer进行评估来总结,其结果突出了在设计关系型数据库预测模型时考虑每个维度的重要性,以及更简单的方法(例如仅连接相邻表)的局限性。我们的源代码已发布在https://github.com/awslabs/multi-table-benchmark。
  • 图表
  • 解决问题
    如何更好地训练和评估关系型数据库上的预测机器学习模型?
  • 关键思路
    将多表数据集转化为保留表格特征的图形,并使用匹配良好的归纳偏差的可训练模型基于这些输入子图输出预测。
  • 其它亮点
    论文提出了一个统一、可扩展的开源工具箱4DBInfer,用于探索关系型数据库上预测模型的四个维度:多表数据集转换为图形、图形子采样、可训练模型、公共基准测试集。论文还提供了大规模的关系型数据库数据集和相应的预测任务,并通过实验评估了4DBInfer的性能。
  • 相关研究
    在关系型数据库上的预测模型方面,以往的工作主要集中在单表数据集上,或者使用GNN等图形模型处理没有表格特征的图形数据集。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论