- 简介Shampoo是一种二阶优化算法,使用Kronecker乘积预处理器,最近在机器学习界引起了越来越多的关注。Shampoo使用的预处理器可以被视为Hessian的Gauss-Newton分量或Adagrad维护的梯度协方差矩阵的近似。我们提供了一个明确而新颖的连接,将这些矩阵的$\textit{最优}$ Kronecker乘积逼近与Shampoo的逼近联系起来。我们的连接突出了一个关于Shampoo逼近的微妙但常见的误解。特别地,Shampoo优化器使用的逼近的$\textit{平方}$等价于计算上述最优Kronecker乘积逼近的幂迭代算法的一步。在各种数据集和架构上,我们经验性地证明了这接近于最优的Kronecker乘积逼近。此外,对于Hessian逼近观点,我们经验性地研究了各种实用技巧(如使用批量梯度和经验Fisher)对Hessian逼近质量的影响。
- 图表
- 解决问题探讨Shampoo优化算法中Kronecker预处理器的适用性和近似性,并与最优Kronecker预处理器进行比较。
- 关键思路Shampoo算法中使用的预处理器的平方等价于计算最优Kronecker预处理器的功率迭代算法的一步。
- 其它亮点论文提供了Shampoo算法和最优Kronecker预处理器之间的显式和新颖的联系,并在多个数据集和架构上进行了实验验证。此外,论文还研究了一些实用技巧对Hessian近似的影响。
- 相关工作包括Adagrad和其他一些优化算法,以及Kronecker分解的应用研究。
沙发等你来抢
去评论
评论
沙发等你来抢