4+3 Phases of Compute-Optimal Neural Scaling Laws

2024年05月23日
  • 简介
    我们考虑了由Maloney、Roberts和Sully引入的三参数可解的神经网络缩放模型。该模型有三个参数:数据复杂度、目标复杂度和模型参数数量。我们使用这个神经网络缩放模型来推导关于计算受限、无限数据缩放定律的新预测。为了训练神经网络缩放模型,我们在均方误差上运行一次随机梯度下降。我们推导了一个损失曲线的表示,它在所有迭代次数上都有效,并且随着模型参数数量的增加而提高准确性。然后我们分析了计算最优的模型参数数量,并在数据复杂度/目标复杂度相位平面上确定了4个阶段(+3个子阶段)。相位边界由模型容量、优化器噪声和特征嵌入的相对重要性决定。我们还通过数学证明和广泛的数值证据推导出了所有这些阶段的缩放定律指数,特别是计算浮点操作预算的最优模型参数数量作为函数。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在使用三参数可解的神经缩放模型来推导计算受限、无限数据缩放定律的新预测。该模型试图解决如何确定最佳的模型参数数量来平衡计算开销和模型容量的问题。
  • 关键思路
    论文使用神经缩放模型来推导计算受限、无限数据缩放定律的新预测,并且通过数学证明和大量数值证据,计算了所有阶段的缩放指数,特别是作为浮点操作预算函数的最佳模型参数数量。
  • 其它亮点
    论文使用一次随机梯度下降法来训练神经缩放模型,并推导出一个损失曲线的表示形式,该表示形式适用于所有迭代次数,并随着模型参数数量的增加而提高准确性。论文还分析了计算最优模型参数数量,并在数据复杂度/目标复杂度相平衡的平面上识别出4个阶段(+3个子阶段)的相位边界,这些边界由模型容量、优化器噪声和特征嵌入的相对重要性决定。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:《Neural Tangent Kernel: Convergence and Generalization in Neural Networks》、《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》、《Understanding deep learning requires rethinking generalization》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问