TabReD: A Benchmark of Tabular Machine Learning in-the-Wild

简介

本文指出，对于实现表格机器学习（ML）中新研究的快速采用，紧密反映下游应用场景的基准测试至关重要。作者检查了现有的表格基准测试，并发现了两个行业级表格数据的共同特征，这在学术界可用的数据集中被低估。首先，现实世界中的部署场景下，表格数据经常随时间变化。这会影响模型性能，并需要基于时间的训练和测试分割来正确评估模型。然而，现有的学术表格数据集通常缺乏时间戳元数据，无法进行这种评估。其次，生产环境中的数据集往往来自于广泛的数据获取和特征工程流程。对于每个特定的数据集，这可能会对预测、无信息和相关特征的绝对和相对数量产生不同的影响，从而影响模型选择。为了填补学术基准测试中上述空白，作者介绍了TabReD——由八个行业级表格数据集组成的集合，涵盖了从金融到食品配送服务的各个领域。作者在由TabReD提供的功能丰富、时间演变的数据设置中评估了大量表格ML模型。作者证明，在基于时间的数据分割上进行评估，与在学术基准测试中更常见的随机分割上进行评估相比，会导致不同的方法排名。此外，在TabReD数据集上，MLP-like架构和GBDT显示出最佳结果，而更复杂的DL模型尚未证明其有效性。
图表
解决问题

论文旨在解决现有学术界的表格机器学习数据集不足以反映实际应用场景的问题，提出了TabReD数据集来填补这一空缺。
关键思路

TabReD数据集包含8个行业级的表格数据集，涵盖了金融、餐饮等多个领域，其中包括时间变化和特征工程等现实场景中常见的特征，以及时间分割的模型评估方法，旨在提高表格机器学习模型的实际应用能力。
其它亮点

论文通过对TabReD数据集进行大量的实验评估，发现时间分割的模型评估方法可以更好地反映实际应用场景，而MLP和GBDT等模型在TabReD数据集上表现较好，而深度学习模型的效果有待提高。此外，TabReD数据集也开放了代码和数据集供研究者使用。
相关研究

在表格机器学习领域，近期还有一些相关研究，如《AutoCross: Automatic Feature Crossing for Tabular Data Neural Networks》和《Tabular Data Augmentation using Generative Adversarial Networks》等。

TabReD: A Benchmark of Tabular Machine Learning in-the-Wild

评论