- 简介本文提出了一种理论解释,即堆叠(Stacking)实现了一种Nesterov加速梯度下降(Nesterov's accelerated gradient descent)。堆叠是一种启发式技术,通过逐步增加层数并通过从旧层复制参数来初始化新层,已被证明在提高深度神经网络的训练效率方面非常成功。该理论还涵盖了更简单的模型,例如在提升方法中构建的加法集合,并为每个提升回合中初始化新分类器的类似广泛使用的实用启发式方法提供了解释。我们还证明了对于某些深度线性残差网络,堆叠确实提供了加速训练,通过对Nesterov加速梯度方法的新潜在函数分析,该分析允许更新中的误差。我们进行了概念验证实验以验证我们的理论。
- 图表
- 解决问题本文试图解释堆叠技术在训练深度神经网络中的有效性,并提出一种理论解释:堆叠实现了一种Nesterov的加速梯度下降。同时,该理论还涵盖了更简单的模型,如提升方法中构建的加法集成,并为提升方法中每个新分类器的初始化提供了类似的广泛使用的实用启发式方法的解释。
- 关键思路堆叠技术实现了一种Nesterov的加速梯度下降,从而提高了深度神经网络的训练效率。
- 其它亮点论文提供了一种理论解释,证明了对于某些深度线性残差网络,堆叠确实提供了加速训练。实验验证了该理论,并提出了一些值得关注的地方。
- 最近的相关研究包括:《Deep Residual Learning for Image Recognition》、《Identity Mappings in Deep Residual Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢