FAdam: Adam is a natural gradient optimizer using diagonal empirical Fisher information

2024年05月21日
  • 简介
    本文为Adam优化器建立了数学基础,阐明了它与黎曼几何和信息几何中的自然梯度下降的联系。我们严格分析了Adam中的对角经验Fisher信息矩阵(FIM),澄清了所有详细的近似方法,并提倡使用基于离散分布的对数概率函数作为损失函数,由于经验FIM的局限性。我们的分析揭示了原始Adam算法中的缺陷,导致了提出了一些修正方法,如增强的动量计算、调整的偏置校正、自适应epsilon和梯度剪辑。我们基于我们的理论框架改进了权重衰减项。我们修改后的算法Fisher Adam(FAdam)在包括LLM、ASR和VQ-VAE在内的不同领域表现出优越的性能,在ASR方面实现了最先进的结果。
  • 图表
  • 解决问题
    本论文旨在建立Adam优化器的数学基础,阐明其通过Riemannian和信息几何与自然梯度下降的联系。同时,论文分析了Adam中的对角经验Fisher信息矩阵(FIM),澄清了所有详细的近似,并提倡使用基于离散分布的对数概率函数作为损失函数,由于经验FIM的局限性。本文的分析揭示了原始Adam算法中的缺陷,导致了一些改进措施,例如增强的动量计算、调整的偏差校正、自适应epsilon和梯度裁剪。本文根据我们的理论框架改进了权重衰减项。我们修改后的算法Fisher Adam(FAdam)在包括LLM、ASR和VQ-VAE在内的各个领域都表现出优异的性能,实现了ASR的最新成果。
  • 关键思路
    本文的关键思路是通过Riemannian和信息几何阐明Adam优化器与自然梯度下降的联系,同时分析了Adam中的对角经验Fisher信息矩阵(FIM),提倡使用基于离散分布的对数概率函数作为损失函数,改进了原始Adam算法中的缺陷,提出了Fisher Adam(FAdam)算法,实现了ASR的最新成果。
  • 其它亮点
    本文的亮点在于通过数学分析阐明了Adam优化器与自然梯度下降的联系,并提出了Fisher Adam(FAdam)算法,实现了ASR的最新成果。同时,本文对Adam中的对角经验Fisher信息矩阵(FIM)进行了详细的分析,并提出了一些改进措施,例如增强的动量计算、调整的偏差校正、自适应epsilon和梯度裁剪。实验使用了LLM、ASR和VQ-VAE等数据集。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如“On the Variance of the Adaptive Learning Rate and Beyond”和“Adaptive Subgradient Methods for Online Learning and Stochastic Optimization”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论