基于Transformer结构的各类语言模型(Bert基于其encoder,Gpt-2基于其decoder)早已经在各类NLP任务上大放异彩,面对让人眼花缭乱的transformer堆叠方式,你是否也会感到迷茫?没关系,现在让我们回到最初,再次看看transformer 本来的模样——Rethinking the Value of Transformer Components。该文收录已于COLING 2020。

众所周知,一个完整的transformer结构可以切分成Encoder-self attention(“E:SA”), Encoder-Feed Forward(“E:FF”), Decoder-Self Attention(“D:SA”), Decoder-Encoder Attention(“D:EA”) 和 Decoder-Feed Forward(“D:FF”) 5个sub-layer结构。文中作者采用了两种度量方式确认这些sub-layer的重要程度

实验结果表明:

  1. Decoder self-attention layers是最不重要的,而Decoder feed-forward layers是最重要的;
  2. 离模型的输入和输出越近的sub-layer要比其他的重要些;
  3. decoder里越靠后的encoder-attention layer要比之前的重要。

这些结果对不同的度量方法,数据集,初始化种子以及模型容量都能保持一致性。

  • 论文题目:Rethinking the Value of Transformer Components

  • 论文链接: https://arxiv.org/pdf/2011.03803.pdf](https://arxiv.org/pdf/2011.03803.pdf)

感兴趣的可以继续戳这篇有意思的文章~

内容中包含的图片若涉及版权问题,请及时与我们联系删除