- 简介当今大型语言模型(LLMs)的成功依赖于一个观察,即更大的模型表现更好。然而,神经缩放定律的起源——即损失随着模型规模以幂律形式减少——仍然不清楚。基于两个经验原则,我们构建了一个简化模型来研究损失随模型规模的变化规律:其一,大型语言模型表示的内容比其模型维度(宽度)更多(即表示是叠加的);其二,语言中的单词或概念出现的频率各不相同。 我们发现,当叠加效应较弱时,意味着只有最频繁的特征被表示且无干扰,损失随模型规模的缩放取决于底层特征频率;如果特征频率遵循幂律分布,那么损失也遵循幂律分布。相比之下,在强叠加情况下,所有特征都被表示但相互重叠,损失在广泛的特征频率分布范围内与模型维度成反比。这种稳健的缩放行为可以通过几何方式解释:当更多的向量被压缩到较低维的空间中时,向量之间的干扰(平方重叠)与该维度成反比。 随后,我们分析了四个系列的开源大型语言模型,发现它们表现出强烈的叠加特性,并定量地与我们的简化模型预测一致。奇痒缩放定律(Chinchilla scaling law)也被证明与我们的结果相符。我们得出结论,表示叠加是观测到的神经缩放定律的重要机制之一。我们期望这些见解能够启发新的训练策略和模型架构,从而以更少的计算资源和参数实现更好的性能。
-
- 图表
- 解决问题该论文试图解释神经缩放定律(neural scaling law)的起源,即为什么更大的模型通常表现更好。这是一个基础性问题,尽管在深度学习领域已被广泛观察到,但其背后的机制尚未完全理解。
- 关键思路论文的关键思路是通过引入‘表示超位置’(representation superposition)的概念来解释损失随模型大小的变化规律。作者提出,当特征频率遵循幂律分布时,在弱超位置下损失也呈幂律下降;而在强超位置下,损失与模型维度呈反比关系。这种现象可以通过几何方式解释:随着更多向量被压缩到低维空间中,向量间的干扰(平方重叠)会随维度减少而增加。这一思路为理解神经缩放定律提供了新的理论视角。
- 其它亮点论文通过构建一个简单的玩具模型验证了上述假设,并分析了四种开源大语言模型的数据,证明它们符合强超位置下的预测结果。此外,论文还发现Chinchilla缩放定律与其结论一致。这些研究不仅加深了对神经缩放定律的理解,还可能启发更高效的训练策略和模型架构设计。实验设计基于真实的LLM数据,具有较强的实证价值,但未提及代码是否开源。
- 最近的相关研究包括《The Scaling Laws of Deep Learning》和《Understanding the Limitations of AI Scaling》,这两篇论文同样探讨了模型规模与性能之间的关系。此外,《On the Origin of Scaling Laws for Deep Networks》从理论上分析了缩放定律的潜在原因,而《Superposition in Neural Representations》则深入研究了超位置现象在神经网络中的作用。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流