报告主题:NeurIPS 2025 Best Paper Runner-up Award|大模型把过多概念挤在有限小空间中导致了规模定律

报告日期:12月25日(周四)10:30-11:30

报告要点:

本期报告将由麻省理工学院刘逸舟进行分享。

现今大型语言模型(LLMs)的成功依赖于一个经验性观察:模型越大,性能越好。大模型把过多概念挤在有限小空间中导致了规模定律然而,这种神经规模定律(neural scaling law)——即损失函数随模型规模以幂律形式下降——的起源仍不清楚。我们提出,表征叠加(representation superposition),即LLM在有限的表征维度中表示了多于维度数量的特征,是误差产生并导致神经规模定律的关键

基于 Anthropic 的表征叠加模型,我们使用权重衰减来控制叠加的程度,从而系统性地研究损失如何随模型规模变化。当叠加较弱时,只有在数据中的特征频率服从幂律分布的情况下,损失才呈现幂律缩放。相反,在强叠加条件下,由于表征向量之间的几何重叠,损失会在一大类特征频率分布下与模型维度成反比。我们验证了开源大模型运行在强叠加机制下,其损失与模型维度成反比缩放。并且 Chinchilla规模定律也与这一行为一致。我们的结果表明表征叠加是神经规模定律的核心驱动因素,并为诸如神经规模定律何时可以改进、何时会失效等问题提供了新的洞见。

相关论文:
Superposition Yields Robust Neural Scaling
🏆 荣获 NeurIPS 2025 Best Paper Runner-up Award
报告嘉宾:
刘逸舟,论文一作,麻省理工学院博士生,主要研究方向是大语言模型在宏观尺度涌现出的新物理,近期专注于神经规模定律(neural scaling laws),荣获NeurIPS 2025 Best Paper Runner-up Award。

扫码报名


更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除