ACL2022 | bert2BERT：参数复用的高效预训练方法，显著降低超大模型的训练成本

近年来各大公司在大模型上积极布局，发布了一系列千亿参数级别的超大模型，在自然语言理解、生成和推理问题上实现了质的突破。然而，超大模型的预训练是极其耗费资源的。为此，本文提出了一种新的预训练加速技术：基于模型参数复用的bert2BERT方法，它可以让大模型在初始化阶段有效继承小模型的能力，减少重复训练成本，显著提升训练效率。bert2BERT在BERT和GPT上进行了广泛的实验，在Base版本模型上分别节省45%和47%的计算成本。同时借助MindSpore和CANN计算框架能力，该方法也被应用于千亿大模型的训练。实验表明当用百亿模型加速千亿大模型的时候，以预训练loss为评判标准，bert2BERT能显著减少30%以上的训练成本。

论文链接：https://aclanthology.org/2022.acl-long.151.pdf

代码链接：https://github.com/huawei-noah/Pretrained-Language-Model

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ACL2022 | bert2BERT：参数复用的高效预训练方法，显著降低超大模型的训练成本

评论