标题:How to Train BERT with an Academic Budget(如何用学术预算训练BERT)

作者:Peter Izsak, Moshe Berchansky, Omer Levy

机构:Intel,特拉维夫大学

简介:大型语言模型BERT在NLP中无处不在地使用,对他们进行预训练被认为是一种奢侈品,只有少数资金充裕的行业实验室能够负担得起。一个人怎么能用更适度的预算来训练这样的模型?我们提出一个预训练语言模型的方法:在24小时内,只使用8块低端12GB GPU。我们证明了通过软件优化、设计选择和超参数调谐的组合,可以生产出具有在语言理解任务上与BERT-base竞争,却只需要一小部分培训成本。

论文链接:https://peteriz.github.io/posts/papers/academic-budget-bert.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除