Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws

Zeyuan Allen-Zhu ,
Yuanzhi Li
2024年04月08日
  • 简介
    缩放定律描述了语言模型大小与其能力之间的关系。与以前评估模型能力的研究不同,我们通过估算模型存储的知识位数来评估其能力。我们关注表示为元组(例如(美国,首都,华盛顿特区))的事实知识,这些知识来自维基百科页面。通过多个受控数据集,我们确定语言模型每个参数只能存储2位知识,即使将其量化为int8,这种知识也可以灵活地用于下游应用。因此,根据我们的估计,7B模型可以存储14B位知识,超过英文维基百科和教科书的总和。 更广泛地说,我们提出了12个结果,说明(1)训练时间、(2)模型架构、(3)量化、(4)MoE等稀疏性约束以及(5)数据信噪比如何影响模型的知识存储容量。值得注意的见解包括: * GPT-2架构,具有旋转嵌入,与LLaMA / Mistral架构在知识存储方面相当甚至更好,特别是在较短的训练持续时间内。这是因为LLaMA / Mistral使用GatedMLP,这种方法不太稳定且更难训练。 * 在域名(例如wikipedia.org)前添加训练数据显着增加了模型的知识容量。语言模型可以自主识别和优先选择富含知识的域,从而优化其存储容量。
  • 图表
  • 解决问题
    本论文试图通过估计语言模型存储的知识位数来描述语言模型的能力,探讨语言模型的存储能力与其规模之间的关系。同时,论文还对训练时间、模型架构、量化、稀疏性约束和数据信噪比等因素对模型存储能力的影响进行了研究。
  • 关键思路
    论文通过对多个数据集的实验,发现语言模型每个参数只能存储2位知识位数,即使是int8量化的模型也是如此。同时,论文还发现通过在训练数据前加上领域名称(如wikipedia.org),可以显著提高模型的知识存储能力。
  • 其它亮点
    论文提出了一种新的描述语言模型能力的方法,即估计模型存储的知识位数;论文还探讨了训练时间、模型架构、量化、稀疏性约束和数据信噪比等因素对模型存储能力的影响。实验结果表明,GPT-2模型在短时间内的知识存储能力优于LLaMA/Mistral模型;在训练数据前加上领域名称可以提高模型的知识存储能力。论文的实验使用了多个数据集,且提供了开源代码,值得进一步研究。
  • 相关研究
    与本论文相关的研究包括:《Language Models as Knowledge Bases?》、《How Much Knowledge Can You Pack Into the Parameters of a Language Model?》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论