近年来,机器学习取得了显著的进展。然而,由于缺乏理解机器学习模型做出推理的依据,用户很难信任模型提供的结果。因此,出现了名为可解释机器学习的技术。今天我们就讲讲这个概念。

知识点

1.可解释机器学习(XAI)用来解决机器学习模型背后缺乏透明度的问题。可解释性是指能够使模型具有向人类解释,或以人类可理解的术语表现其行为的方法。

2.根据获得可解释性的时间,可解释机器学习氛围内在可解释性和事后可解释性两种;根据全局和局部可解释划分,分为全局可解释和局部可解释机器学习两种。

3.可解释机器学习具有模型验证、模型调试、知识发现等重要作用。

定义

可解释机器学习(XAI)用来解决机器学习模型背后缺乏透明度的问题。可解释性是指能够使模型具有向人类解释,或以人类可理解的术语表现其行为的方法。拥有这种能力的AI模型,具有可解释性。[1]

图注:机器学习模型表现可解释性的方法[3]

可解释机器学习技术的分类

1.根据获得可解释性的时间 [2]

(1)内在可解释性

通过构建能够自我解释的模型,可以实现模型的内在可解释性。这种模型能够将可解释性直接纳入到模型的结构中,如决策树、基于规则的模型、线性模型、注意力模型等。

(2)事后可解释性

事后可解释性需要构建新的模型,从而为现有的模型提供解释。如通过局部解释、特征关联、举例解释、文本解释、模型简化、可视化等方式实现。如下图所示:

图注:实现模型事后可解释性的方法[3]

2.根据全局和局部划分[4]

此外,可以将可解释性分为全局和局部两种。

(1)全局可解释性

用户可以通过检查复杂模型的结构和参数,从而了解模型是如何工作的。

(2)局部可解释性

局部可解释性则是检查模型的单个预测,尝试弄清楚模型为什么做出这样的决定。

图注:全局和局部可解释性,已经与内在可解释和事后可解释合并的分类[3]

XAI的实际应用

1.模型验证

模型的可解释性能够帮助研究者检测机器学习模型是否采用了真实的数据,而不是训练数据中广泛存在的偏见。[4]

2.模型调试

当模型给出错误或令人意外的预测结果时,可解释性能够帮助研究者用来分析和调试模型的错误行为,如对抗性学习。[26]

3.知识发现

机器学习中产生的解释也可以帮助人类来理解模型的决策过程,从而获得新的洞察。最终,隐藏在数据中的新规律可能会被提取出来。[4]

发展方向:迈向人类友好的解释

据[4],可解释机器学习未来可能有四个发展方向:

对比性解释:模型不需要人们为什么要做一个具体的预测,而是解释为什么要做出这个预测,从而回答 "为什么是Q而不是R?"这样的问题。这里Q是需要解释的事实,R是比较的案例,可能是真实的案例,也可能是虚拟的案例。

选择性解释:通常情况下,用户并不期望一个解释能够涵盖模型做出一个决定的全部原因。相反,他们希望解释能够传达对决策有帮助的最重要的信息[5]。一个稀疏的解释,包括一组最小的有助于证明预测的特征,是首选的,尽管是不完整的。

可信的解释:好的解释可能与一般用户的先前知识一致[2]。

对话式解释:解释可能是作为解释者和解释接受者之间的对话来进行的[5]。这意味着我们需要考虑社会环境,即解释是提供给谁的[6],以确定解释的内容和格式。

图注:可解释机器学习的发展方向 [4]

*本文主要内容来自论文:"Techniques for interpretable machine learning",论文作者:杜梦楠、刘宁昊、胡侠。社区编辑牛梦琳对本百科词条亦有重要贡献。

参考链接

[1]  F. Doshi-Velez and B. Kim. Towards a rigorous science of interpretable machine learning. 2017.

[2] C. Molnar. Interpretable Machine Learning. 2018. https://christophm.github.io/interpretable- ml- book/

[3] Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI: https://arxiv.org/pdf/1910.10045.pdf

[4] Du, Mengnan, Ninghao Liu, and Xia Hu. "Techniques for interpretable machine learning." Communications of the ACM 63.1 (2019): 68-77.

[5] T. Miller. Explanation in artificial intelligence: Insights from the social sciences. Artificial Intelligence, 2018.

[6] R. Tomsett, D. Braines, D. Harborne, A. Preece, and S. Chakraborty. Interpretable to whom? a role-based model for analyzing interpretable machine learning systems. ICML Workshop on Human Interpretability in Machine Learning (WHI), 2018.