Variational Stochastic Gradient Descent for Deep Neural Networks

简介

优化深度神经网络是成功深度学习的主要任务之一。目前最先进的优化器是自适应梯度优化方法，如Adam。最近，越来越多的人对在概率框架下制定基于梯度的优化器以更好地估计梯度和建模不确定性产生了兴趣。在这里，我们建议结合这两种方法，从而产生变分随机梯度下降（VSGD）优化器。我们将梯度更新建模为概率模型，并利用随机变分推理（SVI）推导出一种高效而有效的更新规则。此外，我们展示了我们的VSGD方法如何与其他自适应梯度优化器（如Adam）相关。最后，我们在两个图像分类数据集和四个深度神经网络架构上进行实验，证明了VSGD优于Adam和SGD。
图表
解决问题

本论文旨在提出一种新的优化器VSGD，结合了概率框架和自适应梯度优化方法的优点，以更好地估计梯度和建模不确定性。
关键思路

VSGD将梯度更新建模为一个概率模型，并利用随机变分推断（SVI）导出一个高效和有效的更新规则，以优化深度神经网络。
其它亮点

论文在两个图像分类数据集上进行了实验，使用了四种深度神经网络架构，结果表明VSGD优于Adam和SGD。值得注意的是，VSGD与Adam等自适应梯度优化器有关。论文提供了开源代码。
相关研究

与本论文相关的研究包括：Adam优化器、其他概率框架下的优化器、基于贝叶斯方法的优化器等。