Observational Scaling Laws and the Predictability of Language Model Performance

简介

了解语言模型性能如何随规模变化是评估和算法开发的关键。缩放定律是建立这种理解的一种方法，但需要在许多不同规模上训练模型，这限制了它们的使用。我们提出了一种替代方法，观察法，它绕过了模型训练，而是从约80个公开可用的模型中建立缩放定律。从多个模型族群建立单个缩放定律具有挑战性，因为它们的训练计算效率和能力存在很大差异。然而，我们表明这些变化与一个简单的、广义的缩放定律一致，其中语言模型性能是一个低维能力空间的函数，而模型族群只是在将训练计算转化为能力的效率上有所不同。使用这种方法，我们展示了复杂缩放现象的惊人可预测性：我们展示了几个新兴现象遵循平滑的S形行为，并且可以从小模型中预测；我们展示了像GPT-4这样的模型的代理性能可以从更简单的非代理基准精确预测；我们展示了如何预测后训练干预（如思维链和自我一致性）对语言模型能力继续提高的影响。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

探讨语言模型的规模与性能之间的关系，提出一种基于观察的方法来构建规模定律
关键思路

使用80个公开的语言模型构建一个通用的规模定律，其中模型性能是一个低维能力空间的函数，模型家族只是在将训练计算转换为能力方面的效率不同
其它亮点

论文显示，语言模型的性能与规模之间存在可预测的复杂规律，可以通过简单的模型预测GPT-4等复杂模型的性能，可以预测后训练干预的影响
相关研究

相关研究包括《Scaling Laws for Neural Language Models》、《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》等

Observational Scaling Laws and the Predictability of Language Model Performance

提问交流

提问交流