Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

2024年07月18日
  • 简介
    研究大规模语言模型(LLMs)的扩展主要集中在模型参数和训练数据大小上,忽视了词汇量的作用。较大的词汇量通过用更少的标记表示句子,使分词更加高效,但也增加了罕见标记表示的欠拟合风险。我们通过在不同词汇配置下训练从33M到3B参数的模型,探究了词汇量对LLM扩展定律的影响,提出了三种预测计算最优词汇量的方法:IsoFLOPs分析、导数估计和损失函数的参数拟合。我们的方法得出了同样的结论,即最优词汇量取决于可用的计算预算,更大的模型应该使用更大的词汇量。然而,大多数LLMs使用的词汇量太小。例如,我们预测Llama2-70B的最优词汇量应该至少为216K,比其词汇量32K大7倍。我们通过在不同的FLOPs预算下训练具有3B参数的模型来验证我们的预测。采用我们预测的最优词汇量始终可以改善下游性能,相对于常用词汇量,将词汇量从传统的32K增加到43K,可以在相同的2.3e21 FLOPs下将ARC-Challenge的性能从29.1提高到32.0。我们的工作强调了同时考虑模型参数和词汇量对于有效扩展的必要性。
  • 图表
  • 解决问题
    本论文旨在探讨词汇量对于大型语言模型(LLMs)的影响,并提出预测计算最优词汇量的三种方法。
  • 关键思路
    本文的关键思路是通过三种方法预测计算最优词汇量,并验证了采用预测的最优词汇量可以提高下游任务的性能。
  • 其它亮点
    论文通过训练不同词汇配置的33M到3B参数的模型,研究了词汇量对LLM扩展规律的影响。实验结果表明,最优词汇量取决于可用的计算预算,而大型模型需要更大的词汇量。作者的预测显示,大多数LLMs使用的词汇量过小。作者验证了采用预测的最优词汇量可以提高下游任务的性能。本文的亮点包括三种预测最优词汇量的方法、实验结果的验证以及下游任务性能的提升。本文使用了多个数据集,但没有开源代码。作者建议未来的研究应该考虑同时考虑模型参数和词汇量的影响。
  • 相关研究
    在这个领域中,最近的相关研究包括《Scaling Laws for Neural Language Models》、《Understanding and Improving Layer Normalization》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论