FAdam: Adam is a natural gradient optimizer using diagonal empirical Fisher information

2024年05月21日
  • 简介
    本文为Adam优化器建立了数学基础,通过黎曼几何和信息几何揭示了它与自然梯度下降的联系。我们严格分析了Adam中的对角经验Fisher信息矩阵(FIM),澄清了所有细节的近似,并提倡使用基于离散分布的对数概率函数作为损失函数,由于经验FIM的限制。我们的分析揭示了原始Adam算法中的缺陷,导致提出了一些修正,如增强的动量计算、调整的偏置校正和梯度剪切。我们基于我们的理论框架改进了权重衰减项。我们修改后的算法Fisher Adam(FAdam)在包括LLM、ASR和VQ-VAE在内的各个领域表现出优越的性能,实现了ASR的最新成果。
  • 图表
  • 解决问题
    本文旨在建立Adam优化器的数学基础,阐明它与黎曼几何和信息几何的自然梯度下降的联系。同时,对Adam中的对角经验Fisher信息矩阵(FIM)进行了严格分析,澄清了所有详细的近似,并提倡使用基于离散分布的对数概率函数作为损失函数,由于经验FIM的局限性。文章揭示了原始Adam算法中的缺陷,提出了改进的动量计算、偏差校正和梯度剪切等纠正措施。基于我们的理论框架,我们改进了权重衰减项。我们修改后的算法Fisher Adam (FAdam)在LLM、ASR和VQ-VAE等多个领域表现出卓越的性能,实现了ASR的最新成果。
  • 关键思路
    本文提出了一种基于黎曼几何和信息几何的自然梯度下降方法,用于改进Adam优化器。同时,作者建议使用基于离散分布的对数概率函数作为损失函数,以解决经验FIM的局限性问题,并对原始Adam算法中的缺陷进行了纠正。
  • 其它亮点
    本文提出的Fisher Adam (FAdam)算法在多个领域表现出卓越的性能,并实现了ASR的最新成果。实验设计详细,使用了多个数据集,并提供了开源代码。文章还探讨了其他相关工作和值得深入研究的方向。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Averaged Gradient Episodic Memory for Continual Learning》、《Adaptive Gradient Methods with Dynamic Bound of Learning Rate》、《On the Convergence of Adam and Beyond》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论