- 简介近年来,大型语言模型(LLM)在实现人工通用智能方面取得了显著进展。然而,从零开始训练这些模型需要大量的计算资源和大量的文本数据。本文探讨了一种替代方法,即通过持续预训练(CPT)现有预训练LLM,而不是使用随机初始化参数,来构建新语言的LLM。基于对40种模型大小(范围从40M到5B参数)的并行实验,我们发现:1)CPT收敛更快,以可扩展的方式节省了大量资源;2)CPT遵循了Hoffmann等人(2022年)提出的扩展缩放定律,其中包括一个数据-参数缩放项;3)基于我们估计的缩放因子,CPT的计算最优数据-参数分配明显不同;4)规模上的转移效果受训练持续时间和语言特性的影响,但对数据重放具有鲁棒性,这是一种有效缓解CPT中灾难性遗忘的方法。我们希望我们的研究结果能够为研究社区提供有关规模上LLM可转移性的更深入的见解。
- 解决问题本论文探索了一种构建新语言的大型语言模型(LLMs)的替代方法,即通过持续预训练(CPT)从现有的预训练LLMs中学习,以节省计算资源和文本数据。
- 关键思路论文的关键思路是使用持续预训练(CPT)从现有的预训练LLMs中学习,而不是使用随机初始化参数,从而更快地收敛并以可扩展的方式节省资源。
- 其它亮点论文通过40个模型大小的并行实验发现,持续预训练(CPT)的数据-参数分配与Hoffmann等人(2022)的扩展缩放定律密切相关;CPT的转移效果受训练持续时间和语言属性的影响,但对数据重放具有鲁棒性。
- 最近的相关研究包括使用不同的预训练语言模型和技术来提高自然语言处理任务的性能,例如GPT-3和T5。
沙发等你来抢
去评论
评论
沙发等你来抢