- 简介最先进的神经网络训练方法依赖于网络函数的梯度。因此,它们无法应用于激活函数没有有用导数的网络,例如二进制和离散时间尖峰神经网络。为了解决这个问题,通常用替代导数替换激活函数的导数,从而产生替代梯度学习(SGL)。这种方法在实践中效果很好,但缺乏理论基础。神经切向核(NTK)已经在梯度下降分析中证明成功。在这里,我们提供了NTK的一个推广,称为替代梯度NTK,它使得对SGL的分析成为可能。首先,我们研究了一种将NTK扩展到具有跳跃的激活函数的方法,证明了在无限宽度极限下,这种激活函数的梯度下降也是不适定的。为了解决这个问题,我们将NTK推广到具有替代导数的梯度下降,即SGL。我们仔细定义了这个推广,并用数学严密的方法扩展了现有的NTK关键定理。此外,我们用数值实验说明了我们的发现。最后,我们将具有符号激活函数和有限宽度的网络中的SGL与替代梯度NTK的核回归进行了数值比较;结果证实了替代梯度NTK提供了对SGL的良好描述。
- 图表
- 解决问题论文旨在解决神经网络中激活函数没有有用导数的问题,如二值和离散时间尖峰神经网络,通过引入代理导数的方法,即代理梯度学习(SGL),但该方法缺乏理论基础。
- 关键思路论文提出了一种新的神经切向核(NTK)的推广,称为代理梯度NTK,用于分析SGL,通过定义该推广并扩展现有关键定理,证明该方法的有效性。
- 其它亮点论文通过数值实验验证了代理梯度NTK对SGL的良好特性,并与使用代理梯度的有限宽度符号激活函数网络的核回归进行了比较。论文的方法提供了一种新的理论基础,可以在激活函数没有有用导数的情况下使用梯度下降进行训练。
- 近期的相关研究包括神经网络的其他训练方法,如自适应梯度方法和强化学习,以及使用代理梯度进行训练的其他技术。
沙发等你来抢
去评论
评论
沙发等你来抢