Superposition Yields Robust Neural Scaling

2025年05月15日
  • 简介
    当今大型语言模型(LLMs)的成功依赖于一个观察,即更大的模型表现更好。然而,神经缩放定律的起源——即损失随着模型规模以幂律形式减少——仍然不清楚。基于两个经验原则,我们构建了一个简化模型来研究损失随模型规模的变化规律:其一,大型语言模型表示的内容比其模型维度(宽度)更多(即表示是叠加的);其二,语言中的单词或概念出现的频率各不相同。 我们发现,当叠加效应较弱时,意味着只有最频繁的特征被表示且无干扰,损失随模型规模的缩放取决于底层特征频率;如果特征频率遵循幂律分布,那么损失也遵循幂律分布。相比之下,在强叠加情况下,所有特征都被表示但相互重叠,损失在广泛的特征频率分布范围内与模型维度成反比。这种稳健的缩放行为可以通过几何方式解释:当更多的向量被压缩到较低维的空间中时,向量之间的干扰(平方重叠)与该维度成反比。 随后,我们分析了四个系列的开源大型语言模型,发现它们表现出强烈的叠加特性,并定量地与我们的简化模型预测一致。奇痒缩放定律(Chinchilla scaling law)也被证明与我们的结果相符。我们得出结论,表示叠加是观测到的神经缩放定律的重要机制之一。我们期望这些见解能够启发新的训练策略和模型架构,从而以更少的计算资源和参数实现更好的性能。
  • 作者讲解·1
  • 图表
  • 解决问题
    该论文试图解释神经缩放定律(neural scaling law)的起源,即为什么更大的模型通常表现更好。这是一个基础性问题,尽管在深度学习领域已被广泛观察到,但其背后的机制尚未完全理解。
  • 关键思路
    论文的关键思路是通过引入‘表示超位置’(representation superposition)的概念来解释损失随模型大小的变化规律。作者提出,当特征频率遵循幂律分布时,在弱超位置下损失也呈幂律下降;而在强超位置下,损失与模型维度呈反比关系。这种现象可以通过几何方式解释:随着更多向量被压缩到低维空间中,向量间的干扰(平方重叠)会随维度减少而增加。这一思路为理解神经缩放定律提供了新的理论视角。
  • 其它亮点
    论文通过构建一个简单的玩具模型验证了上述假设,并分析了四种开源大语言模型的数据,证明它们符合强超位置下的预测结果。此外,论文还发现Chinchilla缩放定律与其结论一致。这些研究不仅加深了对神经缩放定律的理解,还可能启发更高效的训练策略和模型架构设计。实验设计基于真实的LLM数据,具有较强的实证价值,但未提及代码是否开源。
  • 相关研究
    最近的相关研究包括《The Scaling Laws of Deep Learning》和《Understanding the Limitations of AI Scaling》,这两篇论文同样探讨了模型规模与性能之间的关系。此外,《On the Origin of Scaling Laws for Deep Networks》从理论上分析了缩放定律的潜在原因,而《Superposition in Neural Representations》则深入研究了超位置现象在神经网络中的作用。
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问