本文介绍了 Apollo,一种针对非凸随机优化的拟牛顿方法。它通过对角矩阵逼近 Hessian,动态地将损失函数的曲率应用到优化的过程中。重要的是,Apollo 对于 Hessian 的对角近似的时间和空间复杂度与自适应一阶优化方法一样。
为了处理目标函数的非凸性,我们用 Hessian 的修正绝对值(recified absolute value)来代替原始的 Hessian,保证它是正定的。机器视觉和自然语言处理三项任务上的实验表明,Apollo 在收敛速度和泛化性能上都比其它随机优化方法(包括 SGD 和 ADAM 的变体)有了显著的改进。
论文地址:https://arxiv.org/abs/2009.13586
代码链接:https://github.com/XuezheMax/apollo
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢