A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data

2024年07月02日
  • 简介
    表格数据在现实世界中的机器学习应用中非常普遍,新的监督学习表格数据模型也经常被提出。通常,评估模型性能的比较研究采用以模型为中心的评估设置,并过度标准化数据预处理。本文证明了这种以模型为中心的评估具有偏见,因为实际的建模管道通常需要特定于数据集的预处理和特征工程。因此,我们提出了一个以数据为中心的评估框架。我们从Kaggle竞赛中选择了10个相关数据集,并为每个数据集实现了专家级的预处理管道。我们使用不同的预处理管道和超参数优化(HPO)方案进行实验,以量化模型选择、HPO、特征工程和测试时间适应的影响。我们的主要发现是:1.经过特定于数据集的特征工程后,模型排名发生了相当大的变化,性能差异减小了,模型选择的重要性也降低了。2.尽管最近的模型取得了可衡量的进展,但仍然极大地受益于手动特征工程。这适用于基于树的模型和神经网络。3.虽然表格数据通常被认为是静态的,但样本通常是随时间收集的,即使在被认为是静态数据的情况下,适应分布变化也可能很重要。这些见解表明,研究应该从以数据为中心的视角出发,承认表格数据需要特征工程,并且通常具有时间特性。
  • 图表
  • 解决问题
    论文旨在解决模型在标准化数据前的评估方式对真实世界中的表格数据的偏见问题,提出了一个以数据为中心的评估框架。
  • 关键思路
    提出了一个以数据为中心的评估框架,通过对10个数据集进行专业级的预处理流程实现,探究模型选择、超参数优化、特征工程和测试时间适应等因素对模型性能的影响。
  • 其它亮点
    论文发现,经过数据集特定的特征工程后,模型排名会发生显著变化,性能差异减小,模型选择的重要性也降低;同时,最新模型尽管取得了一定的进展,但仍然需要手动进行特征工程;另外,尽管表格数据通常被认为是静态的,但样本往往会随时间变化,因此适应分布变化也很重要。
  • 相关研究
    与该论文相关的研究包括:《A systematic study of the class imbalance problem in convolutional neural networks》、《TabNet: Attentive Interpretable Tabular Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论