Transformer最新总结：分类和目录大全

作者：Xavier Amatriain

来源：https://xamat.medium.com/transformers-models-an-introduction-and-catalogue-2022-edition-2d1e9039f376

整理：炼丹小生（炼丹笔记）

很多人的“记忆”并没那么好，特别是对名字。这些年各种各样的transformer涌现出来，各有各的优势，但是他们的名字却不能直白的看出该版本的transformer到底做了什么。这篇文章的目的就是把所有流行的transformer进行清晰简单的分类，以便大家对transformer家族快速梳理。

简介

Transformer是什么就不用多说了,2017年开始至今引用量将近4w的论文<Attention is All you Need>（https://arxiv.org/abs/1706.03762）提出了一个encoder-decoder的模型取代了历年一直用的LSTM或者其他RNN，正如标题所述该论文最重要的就是Attention结构了。Transformer最基础的结构如下所示：

顺便温习一下最"核心"的multi-headed attention结构,该结构"匹配"query和key-value对，并且输出value的权重和,value的权重来自于query和key的attention值。Transformer结构使用了多头机制，并行计算特定的attention值，计算方式采用的是Scaled Dot-Product Attentio，如下图所示：