Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models

2024年07月09日
  • 简介
    随着语言模型的参数数量和预训练数据集的规模不断扩大,预训练的计算成本已经变得难以承受,只有最富裕资源的团队才能承担。这种成本的增加使得在模型完成预训练后能够重复使用变得更加重要,这样可以使模型的能力进一步提高,而无需从头开始训练。在这项工作中,我们详细介绍了一组指南,涵盖了如何设计高效的数据分布和学习率调度,以进行语言模型的持续预训练。当将这些发现应用于在训练良好的15B参数模型之上的持续预训练运行时,我们展示了平均模型准确性提高了9%,相比于在预训练集上进行持续训练的基准。所得到的配方提供了一个实用的起点,可以通过重复使用而不是重新训练来开发语言模型。
  • 图表
  • 解决问题
    如何在语言模型的预训练过程中设计数据分布和学习率调度,以便于模型的重复利用?
  • 关键思路
    本文提出了一套指导方针,介绍如何在预训练后继续训练语言模型,以便于提高模型的准确性。
  • 其它亮点
    实验表明,使用本文提出的方法进行预训练后的继续训练,相比于在预训练集上继续训练,可以提高9%的模型准确性。文章提供了一个实用的起点,可以通过重复利用模型而不是重新训练来开发语言模型。
  • 相关研究
    在这个领域中,有一些相关的研究,例如《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》和《XLNet: Generalized Autoregressive Pretraining for Language Understanding》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论