Forward Gradient-Based Frank-Wolfe Optimization for Memory Efficient Deep Neural Network Training

简介

使用基于梯度的方法训练深度神经网络需要在每个层级计算梯度。然而，使用反向传播或反向模式差分来计算梯度会导致显著的内存消耗，使反向传播成为计算梯度的一种低效方法。本文重点分析了著名的Frank-Wolfe算法（又称条件梯度算法）的性能，通过使用自动微分的正向模式计算梯度。我们提供了深入的技术细节，表明所提出的算法通过访问在自动微分的正向模式下获得的真实梯度的嘈杂估计（称为投影正向梯度），以亚线性收敛率收敛到最优解。相比之下，当提供投影正向梯度的访问权限时，标准的Frank-Wolfe算法无法收敛到最优解。我们使用数值示例演示了所提出算法的收敛属性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在通过使用自动微分的前向模式计算梯度来分析著名的Frank-Wolfe算法的性能，以解决使用反向传播计算梯度时内存消耗过大的问题。
关键思路

本文提出的算法使用前向自动微分的噪声估计的真实梯度，即投影前向梯度，收敛于最优解，具有次线性收敛率。相比之下，标准的Frank-Wolfe算法在提供投影前向梯度的情况下无法收敛于最优解。
其它亮点

本文通过数值实验展示了所提出的算法的收敛属性，并使用了一个数值示例来说明。
相关研究

最近相关的研究包括使用自动微分的其他方法来计算梯度，例如反向传播和前向模式的组合，以及其他优化算法的改进，例如梯度下降和共轭梯度算法。

Forward Gradient-Based Frank-Wolfe Optimization for Memory Efficient Deep Neural Network Training

提问交流

提问交流