Unraveling the Mystery of Scaling Laws: Part I

Hui Su,
Zhi Tian,
Xiaoyu Shen,
Xunliang Cai
101
热度
ML
NLP
2024年03月11日
  • 简介
    缩放定律原则表明损失与模型大小、数据集大小以及训练期间利用的计算资源等变量之间存在幂律相关性。这些原则在优化模型预训练的各个方面中起着至关重要的作用,最终有助于像GPT-4、Llama和Gemini这样的大型语言模型的成功。然而,OpenAI的原始缩放定律论文没有披露导出精确缩放定律公式所需的完整细节,他们的结论仅基于包含最多15亿个参数的模型。尽管一些随后的研究试图揭示这些细节并扩展到更大的模型,但它们通常忽略了重要因素(如学习率、上下文长度和批量大小)的训练依赖性,导致它们无法建立可靠的公式来预测测试损失轨迹。在本技术报告中,我们确认,在将模型大小扩展到330亿时,原始OpenAI论文中提出的缩放定律公式仍然有效,但这些公式中的常数系数随实验设置而变化很大。我们仔细确定了有影响的因素,并提供透明的、逐步的指导,通过仅在具有1M~60M参数的模型上进行训练来估计缩放定律公式中的所有常数项。使用这些估计的公式,我们展示了在训练之前准确预测具有330B参数的模型的各种属性的能力,包括(1)最小可能的测试损失;(2)实现特定损失所需的最小训练步骤和处理的标记数;(3)在任何损失值下具有最佳时间/计算权衡的关键批量大小;以及(4)任意批量大小的完整测试损失轨迹。
  • 图表
  • 解决问题
    本论文旨在通过确定影响模型预训练的因素,建立可靠的缩放定律公式,以便对规模达到330亿参数的大型语言模型进行优化。
  • 关键思路
    论文通过实验验证,原始OpenAI缩放定律公式在将模型大小扩展到330亿参数时仍然有效,但其中的常数系数会随着实验设置的变化而变化。作者提供了透明的步骤,以估计所有缩放定律公式中的常数项,并使用这些公式准确预测了规模高达330亿参数的模型的多个属性。
  • 其它亮点
    论文提供了透明的步骤,以估计所有缩放定律公式中的常数项,并使用这些公式准确预测了规模高达330亿参数的模型的多个属性。实验使用多个数据集进行,并提供了开源代码。论文还探讨了学习率、上下文长度和批量大小等关键因素对训练的依赖性。
  • 相关研究
    最近的相关研究包括Google的T5模型和Facebook的GShard框架。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论