近年来NLP领域最让人印象深刻的成果,无疑是以谷歌提出的Bert为代表的预训练模型了。它们不断地刷新记录(无论是任务指标上,还是算力需求上),在很多任务上已经能超越人类平均水平,还具有非常良好的可迁移性,以及一定程度的可解释性。

目前主流的预训练模型,都是以17年谷歌提出的Transformer模型作为基础进行修改,作为自己的特征抽取器。可以说,Transformer自从出现以来就彻底改变了深度学习领域,特别是NLP领域。

本文主要介绍了Transformer以及其在近年来的一些优化变种。

内容中包含的图片若涉及版权问题,请及时与我们联系删除