A survey and taxonomy of methods interpreting random forest models

简介

随着机器学习（ML）社区对随机森林（RF）模型可解释性的关注不断增长，其可解释性已成为一个研究热点。在现有技术中，由于其预测性能、灵活性和易用性，RF被认为是一种强大的学习集成。此外，RF模型的内部过程是可理解的，因为它使用一种直观和可理解的方法来构建RF决策树集合。然而，由于其众多的深度决策树，RF生成的模型被认为是“黑盒子”。探索每个决策树诱导最终决策的整个过程，是复杂的，甚至是不可能的。这种复杂性限制了RF模型在多个应用领域的接受和实施。多篇论文已经解决了RF模型的解释问题。本文旨在对文献中用于解释RF生成模型的方法进行广泛的回顾。我们分析了这些方法，并基于不同的轴对它们进行了分类。虽然这个回顾不是详尽无遗的，但它提供了各种技术的分类法，应该指导用户选择最适合解释RF模型的工具，具体取决于所需的可解释性方面。它也应该对那些希望将工作集中在RF或ML黑盒子的可解释性上的研究人员有价值。
图表
解决问题

本论文旨在提供对随机森林模型解释方法的全面回顾，以解决随机森林模型的可解释性问题。
关键思路

本文对现有的随机森林模型解释方法进行分类和分析，并提供一个分类法以帮助用户选择最适合其解释随机森林模型的工具。
其它亮点

本文提供了一个分类法，以帮助用户选择最适合其解释随机森林模型的工具。本文还讨论了一些开放性问题，如如何在不牺牲准确性的情况下提高可解释性，以及如何将解释性与随机森林模型的其他性质相结合。
相关研究

最近在这个领域中，还有一些相关的研究，如“Interpretable random forests with scikit-learn”和“Explaining Random Forest models with SHAP Values”。

A survey and taxonomy of methods interpreting random forest models

评论