【论文标题】ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
【作者团队】Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut
【发表时间】ICLR 2020
【论文链接】http://www.openreview.net/pdf?id=H1eA7AEtvS
【公开代码】https://github.com/google-research/ALBERT
【推荐理由】本文改进了BERT的模型和预训练任务,提出一种新的轻量型的预训练模型ALBERT。在模型比BERT小很多且训练速度比BERT快的情况下,在benchmark任务上仍然取得比BERT要好的成绩。
在对自然语言表示进行预训练时,增加模型的大小通常会提高下游任务的性能。然而,由于GPU/TPU内存的限制,进一步的模型增加变得更加困难更长的训练时间。为了解决这些问题,我们提出了两种参数减少技术来降低内存消耗和增加训练BERT的速度。综合的经验证据表明,论文所提出的方法所产生的模型的规模比原BERT要小的多。文中还使用了一种专注于建模的自我监督损失句子间的连贯性,并表明它始终有助于下游的多句子输入的任务。总之,文中提出的模型在参数比BERT-large少的前提下,在GLEU、RACE和SQuAD基准上仍然取得了最好的结果。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢