每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Unraveling the Mystery of Scaling Laws: Part I
Hui Su,
Zhi Tian,
Xiaoyu Shen,
...
2024年03月11日
缩放定律原则表明损失与模型大小、数据集大小以及训练期间利用的计算资源等变量之间存在幂律相关性。这些原则在优化模型预训练的各个方面中起着至关重要的作用,最终有助于像GPT-4、Llama和Gemini这样的大型语言模型的成功。然而,OpenAI的原始缩放定律论文没有披露导出精确缩放定律公式所需的完整细节,他们的结论仅基于包含最多15亿个参数的模型。尽管一些随后的研究试图揭示这些细节并扩展到更大的模型,但它们通常忽略了重要因素(如学习率、上下文长度和批量大小)的训练依赖性,导致它们无法建立可靠的公式来预测测试损失轨迹。在本技术报告中,我们确认,在将模型大小扩展到330亿时,原始OpenAI论文中提出的缩放定律公式仍然有效,但这些公式中的常数系数随实验设置而变化很大。我们仔细确定了有影响的因素,并提供透明的、逐步的指导,通过仅在具有1M~60M参数的模型上进行训练来估计缩放定律公式中的所有常数项。使用这些估计的公式,我们展示了在训练之前准确预测具有330B参数的模型的各种属性的能力,包括(1)最小可能的测试损失;(2)实现特定损失所需的最小训练步骤和处理的标记数;(3)在任何损失值下具有最佳时间/计算权衡的关键批量大小;以及(4)任意批量大小的完整测试损失轨迹。
13
热度
ML
NLP
PDF
解读