Chinchilla Scaling: A replication attempt

简介

Hoffmann等人（2022）提出了三种估计计算最优扩展定律的方法。我们尝试复制他们的第三种估计方法，该方法涉及将参数损失函数拟合到从他们的图表中重建的数据上。我们发现，所报告的估计与他们的前两种估计方法不一致，无法拟合提取的数据，并报告了不可信的狭窄置信区间——这样狭窄的区间需要进行超过60万次实验，而他们可能只进行了不到500次。相比之下，我们使用第三种方法重新推导扩展定律的结果与Hoffmann等人描述的前两种估计程序的发现相符。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图通过三种方法估计计算最优缩放定律，其中第三种方法是通过将数据绘制的重建数据拟合参数化损失函数来进行的。作者试图复制第三种方法，但发现其结果与前两种方法不一致，无法拟合提取的数据，并报告了不可信的狭窄置信区间。作者通过重新推导第三种方法得到了与前两种方法一致的结果。
关键思路

论文通过三种方法估计计算最优缩放定律，其中第三种方法是通过将数据绘制的重建数据拟合参数化损失函数来进行的。
其它亮点

该论文的实验设计、使用的数据集以及开源代码等方面值得关注。作者通过重新推导第三种方法得到了与前两种方法一致的结果。
相关研究

该论文没有提到其他相关研究。

Chinchilla Scaling: A replication attempt

提问交流

提问交流