作者: 林哲乐 方向: 知识图谱、问答 知乎专栏: https://zhuanlan.zhihu.com/p/151741265

本文的主要目的是理清时间线,关注预训练的发展过程,进行模型间的联系和对比,具体原理和细节请参考原论文和代码,不再一一赘述。

『预训练模型的时间线』 1. ELMO 2018.03 华盛顿大学
2. GPT 2018.06 OpenAI
3. BERT 2018.10 Google 4. XLNet 2019.6 CMU+google 5. ERNIE 2019.4 百度 6. BERT-wwm 2019.6 哈工大+讯飞 7. RoBERTa 2019.7.26 Facebook
8. ERNIE2.0 2019.7.29 百度
9. BERT-wwm-ext 2019.7.30 哈工大 +讯飞 10. ALBERT 2019.10 Google

『预训练语言模型分类 』 单向特征、自回归模型(单向模型):ELMO/ULMFiT/SiATL/GPT1.0/GPT2.0

双向特征、自编码模型(BERT系列模型):BERT/ERNIE/SpanBERT/RoBERTa

双向特征、自回归模型:XLNet

『各模型之间的联系 』 传统word2vec无法解决一词多义,语义信息不够丰富,诞生了ELMO ELMO以lstm堆积,串行且提取特征能力不够,诞生了GPT GPT 虽然用transformer堆积,但是是单向的,诞生了BERT BERT虽然双向,但是mask不适用于自编码模型,诞生了XLNET BERT中mask代替单个字符而非实体或短语,没有考虑词法结构/语法结构,诞生了ERNIE 为了mask掉中文的词而非字,让BERT更好的应用在中文任务,诞生了BERT-wwm Bert训练用更多的数据、训练步数、更大的批次,mask机制变为动态的,诞生了RoBERTa ERNIE的基础上,用大量数据和先验知识,进行多任务的持续学习,诞生了ERNIE2.0 BERT-wwm增加了训练数据集、训练步数,诞生了BERT-wwm-ext BERT的其他改进模型基本考增加参数和训练数据,考虑轻量化之后,诞生了ALBERT

阅读原文:https://mp.weixin.qq.com/s/UnNKTk465Byw57_5YBngYw

内容中包含的图片若涉及版权问题,请及时与我们联系删除