Era Splitting -- Invariant Learning for Decision Trees

2023年09月25日
  • 简介
    实际机器学习问题在时间和地点上的数据分布会发生变化,这种行为超出了传统的经验风险最小化范式的范畴,该范式假设数据在时间和地点上都是独立同分布的。新兴的超出分布(OOD)泛化领域通过新的理论和算法,将环境或时代信息纳入算法中,以应对这一现实。到目前为止,大部分研究都集中在线性模型和/或神经网络上。在这项研究中,我们开发了两个新的决策树分裂标准,使我们能够将OOD泛化研究的思想应用于决策树模型,包括随机森林和梯度提升决策树。新的分裂标准使用与每个数据点相关的时代信息,使基于树的模型能够找到在所有不同时代的数据上都是最优的分裂点,而不是在整个数据集上都是最优的分裂点,这是默认设置。在本文中,我们在金融市场的背景下描述了问题设置。我们详细描述了新的分裂标准,并开展了独特的实验,展示了这些新标准的好处,这些新标准在我们的实验中改善了指标。新标准被纳入Scikit-Learn代码库中的最先进的梯度提升决策树模型中,并可免费使用。
  • 图表
  • 解决问题
    论文试图解决数据分布在时间和空间上的变化对传统决策树模型的影响问题,提出新的分裂准则来解决这一问题。
  • 关键思路
    论文提出两种新的分裂准则,利用数据点的时间信息,使得决策树模型可以跨越不同的时间段和空间,找到最优的分裂点。
  • 其它亮点
    论文在金融市场数据上进行了实验,证明了新的分裂准则能够提高模型的性能。同时,论文将新的准则应用于现有的梯度提升决策树模型,并将代码开源。
  • 相关研究
    近期的相关研究包括:《Out-of-Distribution Detection Using an Ensemble of Self Supervised Leave-Out Classifiers》、《Out-of-Distribution Detection with Distance Guarantee》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论