FAdam: Adam is a natural gradient optimizer using diagonal empirical Fisher information

2024年05月21日
  • 简介
    本文为Adam优化器建立了数学基础,通过黎曼几何和信息几何揭示了它与自然梯度下降的联系。我们严格分析了Adam中的对角经验Fisher信息矩阵(FIM),澄清了所有细节的近似,并提倡使用基于离散分布的对数概率函数作为损失函数,由于经验FIM的限制。我们的分析揭示了原始Adam算法中的缺陷,导致提出了一些修正,如增强的动量计算、调整的偏置校正和梯度剪切。我们基于我们的理论框架改进了权重衰减项。我们修改后的算法Fisher Adam(FAdam)在包括LLM、ASR和VQ-VAE在内的各个领域表现出优越的性能,实现了ASR的最新成果。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在建立Adam优化器的数学基础,阐明它与黎曼几何和信息几何的自然梯度下降的联系。同时,对Adam中的对角经验Fisher信息矩阵(FIM)进行了严格分析,澄清了所有详细的近似,并提倡使用基于离散分布的对数概率函数作为损失函数,由于经验FIM的局限性。文章揭示了原始Adam算法中的缺陷,提出了改进的动量计算、偏差校正和梯度剪切等纠正措施。基于我们的理论框架,我们改进了权重衰减项。我们修改后的算法Fisher Adam (FAdam)在LLM、ASR和VQ-VAE等多个领域表现出卓越的性能,实现了ASR的最新成果。
  • 关键思路
    本文提出了一种基于黎曼几何和信息几何的自然梯度下降方法,用于改进Adam优化器。同时,作者建议使用基于离散分布的对数概率函数作为损失函数,以解决经验FIM的局限性问题,并对原始Adam算法中的缺陷进行了纠正。
  • 其它亮点
    本文提出的Fisher Adam (FAdam)算法在多个领域表现出卓越的性能,并实现了ASR的最新成果。实验设计详细,使用了多个数据集,并提供了开源代码。文章还探讨了其他相关工作和值得深入研究的方向。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Averaged Gradient Episodic Memory for Continual Learning》、《Adaptive Gradient Methods with Dynamic Bound of Learning Rate》、《On the Convergence of Adam and Beyond》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问