SOAP: Improving and Stabilizing Shampoo using Adam

2024年09月17日
  • 简介
    这篇文章提出了一种名为SOAP的新算法,它是Shampoo和Adam的结合体,通过在预处理器特征向量的基础上运行Adafactor来实现。SOAP相当于在旋转空间中运行Adam,只引入了一个额外的超参数。SOAP通过不断更新第二矩的运行平均值来提高计算效率,同时避免了Shampoo计算效率下降的问题。作者在语言模型预训练上进行了实验,结果表明SOAP相较于AdamW,迭代次数减少了40%以上,墙时钟时间减少了35%以上,相较于Shampoo,两个指标都有约20%的提升。SOAP的实现代码可以在https://github.com/nikhilvyas/SOAP上找到。
  • 图表
  • 解决问题
    本文旨在提高深度学习优化任务中Shampoo方法的计算效率,同时保持其优越的优化效果。
  • 关键思路
    本文提出了一种新的算法SOAP,它是在Shampoo的预处理器特征向量空间中运行Adafactor的结果,可以显著提高计算效率,同时保持优秀的优化性能。
  • 其它亮点
    SOAP算法在语言模型预训练中得到了实证评估。与AdamW相比,在大批量情况下,SOAP可以将迭代次数减少超过40%,墙钟时间减少超过35%。相对于Shampoo,SOAP在这两个指标上的改进约为20%。SOAP的实现已经开源。
  • 相关研究
    最近的相关研究包括对Adam和Shampoo的改进,如RAdam和Yogi。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论