近年来各大公司在大模型上积极布局,发布了一系列千亿参数级别的超大模型,在自然语言理解、生成和推理问题上实现了质的突破。然而,超大模型的预训练是极其耗费资源的。为此,本文提出了一种新的预训练加速技术:基于模型参数复用的bert2BERT方法,它可以让大模型在初始化阶段有效继承小模型的能力,减少重复训练成本,显著提升训练效率。bert2BERT在BERT和GPT上进行了广泛的实验,在Base版本模型上分别节省45%和47%的计算成本。同时借助MindSpore和CANN计算框架能力,该方法也被应用于千亿大模型的训练。实验表明当用百亿模型加速千亿大模型的时候,以预训练loss为评判标准,bert2BERT能显著减少30%以上的训练成本。
论文链接:https://aclanthology.org/2022.acl-long.151.pdf
代码链接:https://github.com/huawei-noah/Pretrained-Language-Model
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢