Squeezing Lemons with Hammers: An Evaluation of AutoML and Tabular Deep Learning for Data-Scarce Classification Applications

2024年05月13日
  • 简介
    在许多行业中,都会遇到小型表格数据的问题。在这种低数据情况下,目前尚不清楚是简单的基线方法表现更好,还是更复杂的机器学习方法利用元学习和集成表现更好。在44个表格分类数据集中,样本大小≤500,我们发现带有L2正则化的逻辑回归在大多数基准数据集上的表现与最先进的自动机器学习(AutoML)框架(AutoPrognosis、AutoGluon)和现成的深度神经网络(TabPFN、HyperFast)相似。因此,我们建议在处理表格数据的数据稀缺应用程序中首选逻辑回归,并为实践者提供进一步方法选择的最佳实践。
  • 图表
  • 解决问题
    在小型表格数据领域中,简单的基线模型与复杂的机器学习方法的性能差异不明确。该论文旨在探讨在小型表格分类数据集上,哪种方法表现最好。
  • 关键思路
    在44个样本大小≤500的表格分类数据集上,作者发现L2正则化逻辑回归在大多数基准数据集上表现类似于自动化机器学习框架和深度神经网络。作者建议在小型表格数据应用中优先考虑逻辑回归,并为从业者提供了最佳实践方法选择。
  • 其它亮点
    作者对44个小型表格分类数据集进行了实验,结果表明L2正则化逻辑回归在大多数情况下表现良好,可以作为处理小型表格数据的首选方法。此外,作者还提供了最佳实践方法选择,以帮助从业者选择适合自己数据集的方法。
  • 相关研究
    最近的相关研究包括自动化机器学习框架(AutoPrognosis,AutoGluon)和深度神经网络(TabPFN,HyperFast),这些研究也被用于处理小型表格数据。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论