SOFIM: Stochastic Optimization Using Regularized Fisher Information Matrix

简介

本文介绍了一种基于正则化Fisher信息矩阵（FIM）的新型随机优化方法，称为SOFIM，它可以有效地利用FIM来近似Hessian矩阵，以找到机器学习模型大规模随机优化中的牛顿梯度更新。它可以看作是自然梯度下降（NGD）的一种变体，通过利用正则化FIM并直接通过Sherman-Morrison矩阵求逆来寻找梯度更新方向，解决了存储和计算完整FIM的挑战。此外，像流行的Adam方法一样，SOFIM使用梯度的一阶矩来解决由于异构数据导致的小批量非平稳目标问题。利用正则化FIM和Sherman-Morrison矩阵求逆可提高收敛速度，且空间和时间复杂度与带动量的随机梯度下降（SGD）相同。在几个基准图像分类数据集上训练深度学习模型的广泛实验表明，所提出的SOFIM在达到预定的训练和测试损失以及测试精度目标的收敛速度方面优于带动量的SGD和几种最先进的牛顿优化方法，如Nystrom-SGD、L-BFGS和AdaHessian。
图表
解决问题

论文旨在解决大规模随机优化机器学习模型中的Hessian矩阵求解问题，提出了一种基于正则化Fisher信息矩阵的随机优化方法SOFIM。
关键思路

SOFIM利用正则化Fisher信息矩阵和Sherman-Morrison矩阵求逆来近似求解Hessian矩阵，实现了比SGD更快的收敛速度。
其它亮点

SOFIM在多个图像分类数据集上的实验表明，相比SGD和其他牛顿优化方法，SOFIM具有更快的收敛速度。论文还使用了Adam方法的一阶梯度来解决异构数据的问题。
相关研究

与本论文相关的研究包括Nystrom-SGD、L-BFGS和AdaHessian等牛顿优化方法，以及Adam等一阶优化方法。

SOFIM: Stochastic Optimization Using Regularized Fisher Information Matrix

评论