ICLR 2020趋势分析：NLP中更好&更快的Transformer

介绍了ICLR2020中对Transformer的改进，从自注意力变体，训练目标，模型结构这三个方面对Transformer进行了提升。

Transformer结构首次提出是在“Attention is All you Need”中，是一种有效的替代序列语言建模(LSTMs) 的方法，自提出以来，已在自然语言处理领域无处不在，推动了最下游的最先进的语言学习任务的发展。

今年的国际学习表示会议ICLR对原版的Transformer及其更近期的变体BERT和Transformer-XL进行了许多很好的改进。这些改进的建议是针对Transformer的一些众所周知的弱点，即：

这篇文章想要总结并提供这些贡献的一个概述，着重描述了自然语言处理开发中更好更快的模型的发展趋势。

内容中包含的图片若涉及版权问题，请及时与我们联系删除