Google华人工程师提出Informer简单架构在很多任务上超过经典Transformer

一作是Google工程师Ruining He（LinkedIn）。UCSD博士（2017），清华硕士，河北工业大学本科（2010）。

摘要

Transformer是现代NLP模型的基础。本文中我们提出了Informer，一种简单的架构，在包括屏蔽语言建模、GLUE和SQuAD在内的一系列任务上，其性能明显优于经典的Transformer。从本质上说，Informer易于实现，并且需要最少的超参数调整。它还可以稳定训练，并导致模型的注意力稀疏。

Informer的全称是ResIdual AtteNtion Transformer。下图说明了它与BERT和GPT-2的架构差异：

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Google华人工程师提出Informer简单架构 在很多任务上超过经典Transformer

评论

Google华人工程师提出Informer简单架构在很多任务上超过经典Transformer