一作是Google工程师Ruining HeLinkedIn)。UCSD博士(2017),清华硕士,河北工业大学本科(2010)。

摘要

Transformer是现代NLP模型的基础。 本文中我们提出了Informer,一种简单的架构,在包括屏蔽语言建模、GLUE和SQuAD在内的一系列任务上,其性能明显优于经典的Transformer。 从本质上说,Informer易于实现,并且需要最少的超参数调整。 它还可以稳定训练,并导致模型的注意力稀疏。

Informer的全称是ResIdual AtteNtion Transformer。下图说明了它与BERT和GPT-2的架构差异: