Chinchilla Scaling: A replication attempt

2024年04月15日
  • 简介
    Hoffmann等人(2022)提出了三种估计计算最优扩展定律的方法。我们尝试复制他们的第三种估计方法,该方法涉及将参数损失函数拟合到从他们的图表中重建的数据上。我们发现,所报告的估计与他们的前两种估计方法不一致,无法拟合提取的数据,并报告了不可信的狭窄置信区间——这样狭窄的区间需要进行超过60万次实验,而他们可能只进行了不到500次。相比之下,我们使用第三种方法重新推导扩展定律的结果与Hoffmann等人描述的前两种估计程序的发现相符。
  • 图表
  • 解决问题
    论文试图通过三种方法估计计算最优缩放定律,其中第三种方法是通过将数据绘制的重建数据拟合参数化损失函数来进行的。作者试图复制第三种方法,但发现其结果与前两种方法不一致,无法拟合提取的数据,并报告了不可信的狭窄置信区间。作者通过重新推导第三种方法得到了与前两种方法一致的结果。
  • 关键思路
    论文通过三种方法估计计算最优缩放定律,其中第三种方法是通过将数据绘制的重建数据拟合参数化损失函数来进行的。
  • 其它亮点
    该论文的实验设计、使用的数据集以及开源代码等方面值得关注。作者通过重新推导第三种方法得到了与前两种方法一致的结果。
  • 相关研究
    该论文没有提到其他相关研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论