微软新论文将Transformer拓展到1000层，训练代码很快公开

3月1日出炉的论文《DeepNet: Scaling Transformers to 1,000 Layers》在研究社区引起了热议，作者来自微软亚洲研究院。

该研究直接把 Transformer 深度提升到 1000 层！

下面让我们看下这篇研究说了什么。

近年来，大规模 Transformer 模型出现了这样一种趋势：随着模型参数从数百万增加至数十亿甚至数万亿，性能相应地实现了显著提升。大规模模型在一系列任务上都取得了 SOTA 性能，并在小样本和零样本学习设置下展现出了令人瞩目的能力。如下图所示，尽管参数量已经很大了，但 Transformer 模型的深度（depth）却受到了训练不稳定的限制。

论文地址：https://arxiv.org/pdf/2203.00555.pdf

Nguyen 和 Salazar (2019) 发现，基于 post-norm 连接（Post-LN），pre-norm 残差连接（Pre-LN）能够提升 Transformer 的稳定性。但是，Pre-LN 在底层的梯度往往大于顶层，因而导致与 Post-LN 相比性能下降。为了缓解这一问题，研究人员一直努力通过更好的初始化或更好的架构来改进深度 Transformer 的优化。这些方法可以使多达数百层的 Transformer 模型实现稳定化，然而以往的方法没有能够成功地扩展至 1000 层。

微软亚研在一篇新论文《DeepNet: Scaling Transformers to 1,000 Layers》中终于将 Transformer 的深度扩展到了 1000 层。

此外，实验结果表明，DEEPNORM 能够将 Post-LN 的良好性能和 Pre-LN 的稳定训练高效结合起来。研究者提出的方法可以成为 Transformers 的首选替代方案，不仅适用于极其深（多于 1000 层）的模型，也适用于现有大规模模型。

值得指出的是，在大规模多语言机器翻译基准上，文中 32 亿参数量的 200 层模型（DeepNet）比 120 亿参数量的 48 层 SOTA 模型（即 Facebook AI 的 M2M 模型）实现了 5 BLEU 值提升。

有知乎网友疑问：就实现效果来说，1000 层是否有必要？论文作者之一董力（Li Dong）表示，1000 层更多地是为了探究上限，实际跑的过程中并非一定要上千层。此外，训练代码很快就会公开。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

微软新论文将Transformer拓展到1000层，训练代码很快公开

评论