- 简介表格数据集在各种应用中起着至关重要的作用。因此,为表格数据开发高效、有效、广泛兼容的预测算法非常重要。目前,两种突出的模型类型,梯度提升决策树(GBDT)和深度神经网络(DNN),已经在不同的表格预测任务中展示出性能优势。然而,选择一个适合特定表格数据集的有效模型是具有挑战性的,通常需要耗费时间进行超参数调整。为了解决这个模型选择困境,本文提出了一个新的框架,将GBDT和DNN的优点融合在一起,得到一个与GBDT同样高效、无论对于GBDT或DNN数据集都具有竞争力的DNN算法。我们的想法源于这样一个观察结果:深度学习(DL)提供了一个更大的参数空间,可以表示一个表现良好的GBDT模型,但目前的反向传播优化器在有效发现这种最优功能方面存在困难。另一方面,在GBDT开发过程中,硬树剪枝、熵驱动的特征门和模型集成已经被证明更适应表格数据。通过结合这些关键组件,我们提出了一个树混合简单MLP(T-MLP)。在我们的框架中,一个张量化的、快速训练的GBDT特征门、一个DNN架构剪枝方法以及一个基本的反向传播优化器共同训练一个随机初始化的MLP模型。全面的实验表明,T-MLP在其占主导地位的表格基准测试(88个数据集)中与经过广泛调整的DNN和GBDT具有竞争力,同时具有紧凑的模型存储和显著缩短的训练时间。
- 图表
- 解决问题解决模型选择问题:如何在GBDT和DNN中选择最优模型?
- 关键思路结合GBDT和DNN的优点,提出一种新的模型T-MLP,通过GBDT的特征选择、DNN的架构剪枝和标准反向传播算法共同训练一个随机初始化的MLP模型,实现与经过调参的DNN和GBDT相媲美的性能,同时具有更小的模型存储和更短的训练时间。
- 其它亮点实验使用了88个数据集,证明T-MLP在表现上与经过调参的DNN和GBDT相媲美,同时具有更小的模型存储和更短的训练时间。此外,论文提出的方法也具有很好的可解释性,可以帮助用户更好地理解模型的决策过程。
- 最近的相关研究包括《XGBoost: A Scalable Tree Boosting System》和《Deep Neural Networks for YouTube Recommendations》等。
沙发等你来抢
去评论
评论
沙发等你来抢