如何解释深度神经网络对于人工智能的发展具有重要的作用,也吸引了越来越多学界和业界人士的注意。

10 月 6 日,牛津大学计算机科学博士生、且继续攻读XAI博士后的 Oana Camburu 在推特上公开了自己的博士论文《解释深度神经网络》(Explaining Deep Neural Networks),详尽全面地介绍了不同类型的深度神经网络解释方法,并表示「社区中该领域的研究正在增长,非常高兴自己进行了相对深入的挖掘。」

在这篇博士论文中,作者深入探究了解释深度神经网络的两个主要方向。第一个方向包括基于特征的事后(post-hoc)解释方法,即旨在解释已经训练和固定模型的方法,并提供输入特征方面的解释,如文本 token 和图像超像素。第二个方向包括生成自然语言解释的自解释(self-explanatory)神经模型,即具有内置模块且能够生成模型预测解释的模型。

这篇博士论文具有以下几方面的贡献:

作者揭示了仅使用输入特征来解释模型具有一定的难度。她指出,对于某些模型和实例而言,存在着不止一种 ground-truth 特征解释,所以一种解释(或解释器)的真实性取决于实践中偏好的 ground-truth 解释类型;

作者提出了一种自动验证真实性的框架,借助于这个框架,基于特征的 post-hoc 解释方法可以描述它们想要解释的模型的决策制定过程。这种框架是通用的,并可以在不同任务和域上实例化,以提供用于测试基于特征事后解释方法的完整性测试;

为了探索生成为自身生成自然语言解释的自解释神经模型方向,作者在斯坦福自然语言理解推理(Stanford Natural Language Inference, SNLI)数据集的基础上创建了一个包含约 570K 个人类书面自然语言解释的大型数据集,并将这种解释增强的数据集称为 e-SNLI;

作者证明了当前自解释模型在为预测生成自然语言解释时,会产生不一致的解释。为此,她提出了一种简单却有效的对抗框架,从而防止产生不一致的自然语言解释。

论文地址:https://arxiv.org/pdf/2010.01496.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除