- 简介研究大规模语言模型(LLM)的扩展主要关注模型参数和训练数据大小,忽略了词汇量的作用。我们通过训练包含33M到3B个参数、总字符数高达500B的模型,并采用各种词汇配置,研究了词汇量对LLM扩展规律的影响。我们提出了三种互补的方法来预测计算最优的词汇量大小:IsoFLOPs分析、导数估计和损失函数的参数拟合。我们的方法得出了相同的结果,即最优的词汇量取决于可用的计算预算,并且更大的模型需要更大的词汇量。然而,大多数LLM使用的词汇量过小。例如,我们预测Llama2-70B的最优词汇量应该至少是216K,比它的32K词汇量大7倍。我们通过在不同的FLOPs预算下训练3B参数的模型来验证我们的预测。采用我们预测的最优词汇量大小可以始终提高下游性能,而常用的词汇量大小则不行。通过将词汇量从传统的32K增加到43K,我们在ARC-Challenge上的表现从29.1提高到32.0,但计算预算仍然是2.3e21 FLOPs。我们的工作强调了同时考虑模型参数和词汇量对于有效扩展的必要性。
- 图表
- 解决问题本论文旨在研究词汇量对大型语言模型(LLMs)的影响,并提出预测计算最优词汇量的三种方法。
- 关键思路本论文的关键思路是:计算最优词汇量取决于可用的计算预算,并且更大的模型应该使用更大的词汇量。
- 其它亮点论文采用了三种方法来预测计算最优词汇量,通过实验证明了采用预测词汇量可以提高下游任务的性能。论文强调了同时考虑模型参数和词汇量对于高效扩展的必要性。
- 在最近的相关研究中,也有一些关注词汇量对LLMs性能的影响,例如《On the Importance of Word Boundaries in Character-level Language Modeling》和《Character-level Language Modeling with Deeper Self-attention》。
沙发等你来抢
去评论
评论
沙发等你来抢