事后解释VS自解释，牛津CS博士134页毕业论文探索神经网络内部构造

如何解释深度神经网络对于人工智能的发展具有重要的作用，也吸引了越来越多学界和业界人士的注意。

10 月 6 日，牛津大学计算机科学博士生、且继续攻读XAI博士后的 Oana Camburu 在推特上公开了自己的博士论文《解释深度神经网络》（Explaining Deep Neural Networks），详尽全面地介绍了不同类型的深度神经网络解释方法，并表示「社区中该领域的研究正在增长，非常高兴自己进行了相对深入的挖掘。」

在这篇博士论文中，作者深入探究了解释深度神经网络的两个主要方向。第一个方向包括基于特征的事后（post-hoc）解释方法，即旨在解释已经训练和固定模型的方法，并提供输入特征方面的解释，如文本 token 和图像超像素。第二个方向包括生成自然语言解释的自解释（self-explanatory）神经模型，即具有内置模块且能够生成模型预测解释的模型。

这篇博士论文具有以下几方面的贡献：

作者揭示了仅使用输入特征来解释模型具有一定的难度。她指出，对于某些模型和实例而言，存在着不止一种 ground-truth 特征解释，所以一种解释（或解释器）的真实性取决于实践中偏好的 ground-truth 解释类型；

作者提出了一种自动验证真实性的框架，借助于这个框架，基于特征的 post-hoc 解释方法可以描述它们想要解释的模型的决策制定过程。这种框架是通用的，并可以在不同任务和域上实例化，以提供用于测试基于特征事后解释方法的完整性测试；

为了探索生成为自身生成自然语言解释的自解释神经模型方向，作者在斯坦福自然语言理解推理（Stanford Natural Language Inference, SNLI）数据集的基础上创建了一个包含约 570K 个人类书面自然语言解释的大型数据集，并将这种解释增强的数据集称为 e-SNLI；

作者证明了当前自解释模型在为预测生成自然语言解释时，会产生不一致的解释。为此，她提出了一种简单却有效的对抗框架，从而防止产生不一致的自然语言解释。

论文地址：https://arxiv.org/pdf/2010.01496.pdf

内容中包含的图片若涉及版权问题，请及时与我们联系删除

事后解释VS自解释，牛津CS博士134页毕业论文探索神经网络内部构造

评论