Intel,特拉维夫大学|如何用学术预算训练BERT

标题：How to Train BERT with an Academic Budget（如何用学术预算训练BERT）

作者：Peter Izsak， Moshe Berchansky， Omer Levy

机构：Intel,特拉维夫大学

简介：大型语言模型BERT在NLP中无处不在地使用，对他们进行预训练被认为是一种奢侈品，只有少数资金充裕的行业实验室能够负担得起。一个人怎么能用更适度的预算来训练这样的模型？我们提出一个预训练语言模型的方法：在24小时内，只使用8块低端12GB GPU。我们证明了通过软件优化、设计选择和超参数调谐的组合，可以生产出具有在语言理解任务上与BERT-base竞争，却只需要一小部分培训成本。

论文链接：https://peteriz.github.io/posts/papers/academic-budget-bert.pdf

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Intel,特拉维夫大学|如何用学术预算训练BERT

评论