- 简介本文为Adam优化器建立了数学基础,并通过黎曼几何和信息几何阐明了它与自然梯度下降的联系。我们严格分析了Adam中的对角经验Fisher信息矩阵(FIM),澄清了所有详细的近似,并提倡使用基于离散分布的对数概率函数作为损失函数,由于经验FIM的限制,应该基于离散分布。我们的分析揭示了原始Adam算法中的缺陷,导致了一些改进,如增强的动量计算,调整的偏置校正,自适应epsilon和梯度裁剪。我们根据我们的理论框架改进了权重衰减项。我们修改后的算法Fisher Adam(FAdam)在LLM,ASR和VQ-VAE等不同领域表现出优异的性能,在ASR方面取得了最先进的结果。
- 图表
- 解决问题本文旨在建立Adam优化器的数学基础,通过黎曼和信息几何学,阐明它与自然梯度下降的联系。同时,本文旨在发现原始Adam算法的缺陷,并提出了改进方案。
- 关键思路本文提出了一种改进的Adam优化算法,称为Fisher Adam(FAdam),它在多个领域中展现出卓越的性能,包括LLM,ASR和VQ-VAE,实现了ASR领域的最新成果。FAdam算法在动量计算、偏置校正、自适应epsilon和梯度剪切等方面进行了改进。
- 其它亮点本文通过严格分析Adam中的对角经验Fisher信息矩阵(FIM),澄清了所有详细的近似,并提倡使用基于离散分布的对数概率函数作为损失。本文还改进了基于我们理论框架的权重衰减项。实验展示了FAdam相对于其他算法的优越性能。
- 与本文相关的研究包括对Adam优化器的其他改进,如AMSGrad和AdaBound,以及使用信息几何的其他优化算法,如NGD和RMSprop。
沙发等你来抢
去评论
评论
沙发等你来抢