Gradient Flossing: Improving Gradient Descent through Dynamic Control of Jacobians

简介

训练递归神经网络(RNNs)仍然是一个挑战，因为在长时间范围内梯度的不稳定性可能导致梯度爆炸和消失。最近的研究将这些问题与前向动力学的李亚普诺夫指数的值联系起来，这些指数描述了微小扰动的增长或收缩。在这里，我们提出了梯度漂移(gradient flossing)的新方法，通过在学习过程中将前向动力学的李亚普诺夫指数推向零来解决梯度不稳定性。我们通过可微分线性代数通过反向传播来正则化李亚普诺夫指数，从而实现了"漂洗"梯度，稳定了它们，从而提高了网络训练的效果。我们证明了梯度漂移不仅控制梯度范数，还控制长期雅可比矩阵的条件数，从而促进多维误差反馈传播。我们发现，在训练之前应用梯度漂移可以提高长时间范围任务的成功率和收敛速度。对于具有挑战性的任务，我们展示了在训练期间应用梯度漂移可以进一步增加通过时间反向传播所能跨越的时间范围。此外，我们证明了我们的方法对于各种RNN架构和不同时间复杂度的任务的有效性。此外，我们提供了一个简单的梯度漂移算法的实现，可以在实践中使用。我们的结果表明，通过正则化李亚普诺夫指数的梯度漂移可以显著增强RNN训练的有效性，缓解梯度爆炸和消失问题。
图表
解决问题

解决问题：论文旨在解决长时间跨度下梯度不稳定性的问题，通过将前向动力学的Lyapunov指数推向零来实现梯度稳定。
关键思路

关键思路：通过使用可微分线性代数，通过反向传播来正则化Lyapunov指数，从而实现“flossing”梯度并稳定它们。
其它亮点

亮点：实验设计了多个RNN架构和变量时间复杂度的任务，证明了梯度flossing可以显著提高RNN训练的效果，并缓解梯度爆炸和消失的问题。提供了简单的实现代码。
相关研究

相关研究：最近的相关研究包括“Exploding and Vanishing Gradients Problems with Recurrent Neural Networks and Problem Solutions”和“Training Recurrent Neural Networks with the Leaky Delta Rule”等。

Gradient Flossing: Improving Gradient Descent through Dynamic Control of Jacobians

评论