- 简介机制可解释性旨在通过研究神经网络的权重和激活来逆向工程实现的算法。逆向工程神经网络的障碍在于网络内部的许多参数并未参与网络实现的计算。这些退化参数可能会混淆内部结构。奇异学习理论告诉我们,神经网络参数化趋向于更加退化,并且具有更多退化的参数化往往具有更广泛的泛化能力。我们确定了网络参数可能退化的三种方式:层内激活之间的线性依赖,传递回层的梯度之间的线性依赖,以及在相同的数据点上触发ReLU。我们还提出了一个启发式论证,即模块化网络可能更加退化,并且我们开发了一种基于此论证的识别网络模块的度量标准。我们提出,如果我们可以以对利用退化进行重新参数化的表示不变的方式表示神经网络,那么这种表示很可能更易于解释,并且我们提供了一些证据表明这种表示很可能具有更稀疏的交互。我们引入了交互基础,这是一种可行的技术,可以从激活或雅可比矩阵的线性依赖中获得对退化不变的表示。
- 图表
- 解决问题如何提高神经网络的可解释性,解决神经网络中存在的参数退化问题?
- 关键思路通过消除神经网络中存在的退化参数,提出一种不变表示法,从而提高神经网络的可解释性。
- 其它亮点论文提出了神经网络参数退化的三种情况,并通过提出的不变表示法,实现了对神经网络的可解释性提高。实验使用了多个数据集,并开源了代码。
- 最近的相关研究包括《Towards Understanding Generalization of Deep Learning: Perspective of Loss Landscapes》、《On the Expressive Power of Deep Neural Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢