在过去的几年里,我们已经看到了几十种Transformer家族的模型的迅速出现,它们的名字都很有趣,但并不是不言自明的。本文的目标是对最流行的Transformer模型提供一个有点全面但简单的目录和分类。本文还介绍了Transformer模型的最重要方面和创新。

 

图片

论文链接:https://arxiv.org/abs/2302.07730

Transformer是一类深度学习模型,由一些架构特征定义。2017年,谷歌的研究人员在现在著名的“Attention is All you Need”论文[1](该论文在短短5年内就积累了38k次引用)和相关的博客post1中首次介绍了它们。Transformer架构是前2 - 3年流行的编码器-解码器模型[2]2的一个具体实例。然而,在那之前,注意力只是这些模型使用的机制之一,这些模型主要基于LSTM(长短期记忆)[3]和其他RNN(递归神经网络)[4]变体。正如标题所暗示的那样,transformer论文的关键见解是,注意力可以用作获得输入和输出之间依赖关系的唯一机制。Transformer架构的所有细节已经超出了本博客的范围。为此,我建议你参考上面的原始论文或精彩的the Illustrated transformers帖子。

内容中包含的图片若涉及版权问题,请及时与我们联系删除