Reconciling Kaplan and Chinchilla Scaling Laws

2024年06月12日
  • 简介
    Kaplan等人[2020](以下简称“Kaplan”)和Hoffmann等人[2022](以下简称“Chinchilla”)研究了基于下一个标记语言预测训练的Transformer的缩放行为。这些研究对于如何设置参数数量($N$)和训练标记数量($D$)以实现在给定计算预算($C$)下达到最低可能损失产生了不同的估计。Kaplan的结论是:$N_{optimal} \propto C^{0.73}$,而Chinchilla的结论是:$N_{optimal} \propto C^{0.50}$。本文发现,这种差异很大程度上可以归因于Kaplan计算的是非嵌入参数而不是总参数,并且他们的分析是在小规模下进行的。在这些条件下模拟Chinchilla的研究会产生偏差的缩放系数,接着本文通过解释Kaplan最初高估的原因,重申了Chinchilla的缩放系数。
  • 图表
  • 解决问题
    比较两篇关于transformers训练的研究,探究参数数量、训练数据量和计算资源之间的关系,解决如何在给定计算资源下获得最低损失的问题
  • 关键思路
    Kaplan研究中计算参数数量时未考虑嵌入层以外的参数,且研究规模较小,导致估计的参数数量偏高,与Chinchilla研究结果不一致。本文通过模拟Chinchilla研究并在小规模下进行分析,证明了Kaplan研究结果的偏差,重申了Chinchilla的结论。
  • 其它亮点
    本文通过对比Kaplan和Chinchilla两篇研究,揭示了Kaplan研究中的偏差。实验使用了不同规模的数据集,探究参数数量、训练数据量和计算资源之间的关系。本文的结论对于实际使用transformers进行训练的人们具有指导意义。
  • 相关研究
    近期的相关研究包括GPT-3和Turing-NLG等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论