随着深度神经网络的应用日益广泛,可解释性也逐渐受到更多学者的关注。目前对神经网络的可解释性研究主要分为两个方面,一方面是语义层面的解释,另一方面是数学层面对网络表达能力推导。

  • 在语义层面,最直接的方法是可视化神经网络的中层特征,同时很多研究也致力于估计输入样本中不同单元对于神经网络输出的重要性(attribution/importance/saliency)。
  • 在数学推导的层面,很多研究尝试从各个角度推导出神经网络表达能力的边界。然而,这两类解释性研究往往各自为战,语义层面的解释往往缺乏坚实的理论支撑,数学层面的推导又难以对接到人的认知,让人真正地理解神经网络。

在本文中,作者从特征复杂度的角度出发,尝试将语义解释与神经网络的表达能力相结合。神经网络的中层特征往往是混杂的,包含非常丰富的信息,其中,一些特征是简单的,另一些特征则是非常复杂的,需要经过复杂变换才能学习到。受这一点启发,本文内容:

1.定义了神经网络中层特征的复杂度;
2.在语义层面,实现了对简单特征、复杂特征的拆分及可视化,发现简单特征往往表示物体的主体形状,而复杂特征则是一些细节、噪声信息;
3.在表达能力层面,本文用可靠性、有效性,及过拟合程度评测了神经网络特征,量化了特征表达能力与特征复杂度、训练样本数等因素之间的联系;
4.基于上述结论,本文利用拆分出的特征向量进一步提升了神经网络的性能,并解释了经典学习算法的效果。

论文标题:“Interpreting and Disentangling Feature Components of Various Complexity from DNNs” in ICML 2021

论文链接:http://proceedings.mlr.press/v139/ren21b.html

作者:

任洁*:上海交通大学博士一年级,师从张拳石副教授。
李明杰*:上海交通大学本科四年级,现在张拳石实验室进行实习研究。
刘泽旭:上海交通大学本科三年级,曾在张拳石实验室进行实习研究。
张拳石:上海交通大学副教授,博士生导师。http://qszhang.com

本研究是在张拳石老师 @Qs.Zhang张拳石 指导下完成的工作。

内容中包含的图片若涉及版权问题,请及时与我们联系删除