Observational Scaling Laws and the Predictability of Language Model Performance

2024年05月17日
  • 简介
    了解语言模型性能如何随规模变化是评估和算法开发的关键。缩放定律是建立这种理解的一种方法,但需要在许多不同规模上训练模型,这限制了它们的使用。我们提出了一种替代方法,观察法,它绕过了模型训练,而是从约80个公开可用的模型中建立缩放定律。从多个模型族群建立单个缩放定律具有挑战性,因为它们的训练计算效率和能力存在很大差异。然而,我们表明这些变化与一个简单的、广义的缩放定律一致,其中语言模型性能是一个低维能力空间的函数,而模型族群只是在将训练计算转化为能力的效率上有所不同。使用这种方法,我们展示了复杂缩放现象的惊人可预测性:我们展示了几个新兴现象遵循平滑的S形行为,并且可以从小模型中预测;我们展示了像GPT-4这样的模型的代理性能可以从更简单的非代理基准精确预测;我们展示了如何预测后训练干预(如思维链和自我一致性)对语言模型能力继续提高的影响。
  • 作者讲解·2
  • 图表
  • 解决问题
    探讨语言模型的规模与性能之间的关系,提出一种基于观察的方法来构建规模定律
  • 关键思路
    使用80个公开的语言模型构建一个通用的规模定律,其中模型性能是一个低维能力空间的函数,模型家族只是在将训练计算转换为能力方面的效率不同
  • 其它亮点
    论文显示,语言模型的性能与规模之间存在可预测的复杂规律,可以通过简单的模型预测GPT-4等复杂模型的性能,可以预测后训练干预的影响
  • 相关研究
    相关研究包括《Scaling Laws for Neural Language Models》、《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》等
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问