- 简介机器学习中的一个重要挑战是预测给定神经网络在哪些初始条件下可训练。我们提出了一种方法,基于通过单层辅助网络级联重构激活层后的输入来预测深度前馈神经网络参数空间中的可训练区域。对于MNIST和CIFAR10,我们展示了浅层级联网络训练一个epoch就足以预测深度前馈网络的可训练性,从而大大减少了总体训练时间。我们通过计算重构图像与原始输入之间的相对熵,展示了这种信息损失探测对网络的相位行为敏感,从而实现了这一目标。我们的结果提供了信息流与深度神经网络可训练性之间的具体联系,进一步阐明了关键性在这些系统中的作用。
- 图表
- 解决问题预测深度神经网络的可训练性的初始条件是一个重要的挑战,本文提出了一种方法来解决这个问题。
- 关键思路通过级联单层辅助网络重构输入和后续激活层之间的关系,计算信息损失的相对熵,从而预测深度神经网络的可训练性。
- 其它亮点本文的方法在MNIST和CIFAR10数据集上进行了实验,只需要训练浅层级联网络一个epoch就可以预测深度神经网络的可训练性,大大减少了总体训练时间。实验结果进一步阐明了关键性在深度神经网络中的作用。
- 最近相关的研究包括《Understanding deep learning requires rethinking generalization》、《Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢