介绍了ICLR2020中对Transformer的改进,从自注意力变体,训练目标,模型结构这三个方面对Transformer进行了提升。

avatar

Transformer结构首次提出是在“Attention is All you Need”中,是一种有效的替代序列语言建模(LSTMs) 的方法,自提出以来,已在自然语言处理领域无处不在,推动了最下游的最先进的语言学习任务的发展。

今年的国际学习表示会议ICLR对原版的Transformer及其更近期的变体BERT和Transformer-XL进行了许多很好的改进。这些改进的建议是针对Transformer的一些众所周知的弱点,即:

  1. 优化自注意力计算。
  2. 在模型架构中注入语言学驱动中的归纳偏差。
  3. 使模型的参数更高效。

这篇文章想要总结并提供这些贡献的一个概述,着重描述了自然语言处理开发中更好更快的模型的发展趋势。

内容中包含的图片若涉及版权问题,请及时与我们联系删除