TabReD: A Benchmark of Tabular Machine Learning in-the-Wild

2024年06月27日
  • 简介
    本文旨在探讨与实际应用场景密切相关的基准测试对于流畅采用表格机器学习(ML)新研究的重要性。我们检查了现有的表格基准测试,并发现行业级表格数据的两个常见特征在学术界可用的数据集中被低估。首先,表格数据在实际部署场景中经常随时间变化。这影响了模型性能,并需要基于时间的训练和测试分割以正确评估模型。然而,现有的学术表格数据集通常缺乏时间戳元数据以启用这种评估。其次,在生产环境中,相当一部分数据集源于广泛的数据获取和特征工程流程。对于每个特定的数据集,这可能对预测、无信息和相关特征的绝对和相对数量产生不同的影响,进而影响模型选择。为了填补学术基准测试中上述的空白,我们介绍了TabReD——一个包括从金融到食品配送服务等各种领域的八个行业级表格数据集的集合。我们在由TabReD提供的功能丰富、时间演变的数据设置中评估了大量的表格ML模型。我们证明,在基于时间的数据分割上进行评估会导致不同的方法排序,与学术基准测试中常见的随机分割相比。此外,在TabReD数据集上,类似MLP的体系结构和GBDT表现最佳,而更复杂的DL模型仍需要证明其有效性。
  • 解决问题
    本论文旨在解决现有学术界的表格机器学习基准测试数据集中存在的时间戳元数据缺失和特征工程不足的问题,提出了一个包含8个行业级表格数据集的TabReD数据集,并使用其评估了大量表格机器学习模型。
  • 关键思路
    TabReD数据集是一个包含时间戳元数据和特征工程的行业级表格数据集,能够更好地模拟实际生产环境下的数据变化和特征工程对模型性能的影响。在TabReD数据集上,使用MLP和GBDT等模型能够获得最好的结果,而更复杂的DL模型则有待证明其有效性。
  • 其它亮点
    本论文提出了一个新的行业级表格数据集TabReD,该数据集包含8个不同领域的数据集,并且包括时间戳元数据和特征工程。使用TabReD数据集评估了大量表格机器学习模型,发现使用时间戳元数据进行评估会导致不同的模型排名。此外,论文还进行了大量实验,使用了多种评估指标和模型选择方法,并比较了不同模型的性能。
  • 相关研究
    在相关研究方面,最近的一些研究包括使用时间序列数据进行表格机器学习模型评估的研究,以及使用更复杂的深度学习模型进行表格数据建模的研究。例如,与本论文相关的研究包括"Time Series Split in Python"和"Deep Learning for Tabular Data: A Review"等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论