来源:机器之心

周志华等人一直在推动的深度森林,是探索神经网络以外 AI 领域重要的研究方向之一,在表格数据建模任务中已初现锋芒。但是,由于基于决策树的集成模型在具体实现当中,经常会遇到内存不足,硬件效率不如神经网络等问题,是推动其大规模应用的主要瓶颈之一。

经过 LAMDA 徐轶轩等人的不懈努力,2021 年 2 月 1 日,新的深度森林软件包 DF21 在 GitHub 与开源中国同时开源了。该软件包尝试解决了这一方向在上述实际应用过程中所遇到的关键问题,未来在各类在数据建模过程中,我们也可以便捷地使用深度森林了。

据介绍,该项目目前主要由南大徐轶轩进行开发和维护,在正式发布之前它已经在 LAMDA 内部经过测试和使用。

项目地址:http://www.lamda.nju.edu.cn/deep-forest/ Gitee 地址:https://gitee.com/lamda-nju/deep-forest Github 地址:https://github.com/LAMDA-NJU/Deep-Forest

针对这一开源项目,深度森林参与者之一(现任创新工场南京 AI 研究院执行院长,倍漾资本创始人)冯霁博士告诉机器之心,「深度森林在表格数据建模上,相对传统算法效果显著,但是之前开源的代码主要用于算法验证,以及辅助其他科研工作者进行深度森林算法相关的研究,代码本身对内存和服务器性能要求较高。

徐同学开源的这一版更为简单易用,做了很好的封装,同时进行了高性能优化,大幅降低了内存依赖,对于科研和实际落地应用都是很好的工具。」

此外,针对深度森林固有的内存消耗、只能用 CPU 训练等问题,徐轶轩告诉机器之心,「这个模型的全名是:DF21: A Practical Deep Forest for Tabular Datasets。内存消耗是 DF21 主要解决的问题——此前的 gcForest 在处理百万级别的表格型数据集上,占用的内存可能会达到上百 GB。但在新版本中,在千万级别的表格型数据集上进行训练,占用的内存约为原来的十分之一左右。」

项目介绍

本项目中的 DF21 是深度森林的 2021.2.1 实现版本。深度森林是基于决策树的深度学习模型。使用树模型学习技术(如随机森林、GBDT 等)的应用都可以尝试使用 DF21。它具有以下优势:

  • 拥有比其他基于决策树的集成学习方法更好的性能
  • 拥有更少的超参数,并且无需大量的调参
  • 训练效率高,并且能够处理大规模的数据集

相关资源

在相关资源推荐中,作者推荐了深度森林的相关论文与报告:

论文:Deep Forest 链接:https://arxiv.org/pdf/1702.08835.pdf

报告:周志华:An exploration to non-NN deep models based on non-differentiable modules 链接:https://aistats.org/aistats2019/0-AISTATS2019-slides-zhi-hua_zhou.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除