- 简介持续预训练大型语言模型(LLMs)的领域(例如数学和代码)已被广泛应用于扩展模型对特定下游领域的基本理解。对于特定领域的LLMs的持续预训练(CPT),一个重要问题是如何选择通用语料库(例如Dolma,Slim-pajama)和下游领域语料库之间的最佳混合比例。现有方法通常采用耗费大量GPU训练成本的一组混合比例的网格搜索来采用费力的人力。此外,我们无法保证所选比例对于特定领域是最优的。为了解决现有方法的局限性,受性能预测的缩放定律的启发,我们提出研究特定领域持续预训练的缩放定律(D-CPT定律),以确定具有可接受的训练成本的不同大小的LLMs的最佳混合比例。具体而言,通过拟合D-CPT定律,我们可以使用有限的实验小规模训练成本轻松预测任意混合比例,模型大小和数据集大小的通用和下游性能。此外,我们还将标准D-CPT定律扩展到跨领域设置,并提出跨领域D-CPT定律来预测目标领域的D-CPT定律,其中目标领域需要非常小的训练成本(约为正常训练成本的1%)。对六个下游领域的全面实验结果表明,我们提出的D-CPT定律和跨领域D-CPT定律的有效性和通用性。
- 图表
- 解决问题本文旨在解决领域特定的连续预训练(D-CPT)中如何选择最佳混合比例的问题,以及如何在更小的训练成本下预测模型的性能。
- 关键思路通过拟合D-CPT定律,可以预测任意混合比例、模型大小和数据集大小的性能,而只需进行有限的小规模实验。
- 其它亮点本文提出了D-CPT定律和跨领域D-CPT定律,可以在更小的训练成本下预测模型的性能。实验结果表明了这些定律的有效性和通用性。
- 在这个领域中,还有一些相关的研究,如《Large Scale Language Modeling: Converging on 40 Years of Lessons》和《Scaling Laws for Neural Language Models》。
沙发等你来抢
去评论
评论
沙发等你来抢