Transformer及其变种

近年来NLP领域最让人印象深刻的成果，无疑是以谷歌提出的Bert为代表的预训练模型了。它们不断地刷新记录（无论是任务指标上，还是算力需求上），在很多任务上已经能超越人类平均水平，还具有非常良好的可迁移性，以及一定程度的可解释性。

目前主流的预训练模型，都是以17年谷歌提出的Transformer模型作为基础进行修改，作为自己的特征抽取器。可以说，Transformer自从出现以来就彻底改变了深度学习领域，特别是NLP领域。

本文主要介绍了Transformer以及其在近年来的一些优化变种。

内容中包含的图片若涉及版权问题，请及时与我们联系删除