标题:微软|DeepNet: Scaling Transformers to 1,000 Layers(DeepNet:将变换器扩展到1000层)

作者:Hongyu Wang, Shuming Ma, Furu Wei等

简介:本文提出了一种简单而有效的方法来稳定极深变换器。具体来说,作者引入了一个新的归一化函数(DEEPNORM)修改变换器中的残差连接,伴随理论上推导出的初始化。深入的理论分析表明,模型更新可以以稳定的方式进行限制。所提出的方法结合了两全其美,即Post-LN的良好表现和Pre-LN的稳定训练,使DEEPNORM成为首选替代方案。作者成功地扩大了变换器到1,000层(即 2,500 个注意和前馈网络子层)难度,比之前的深度变换器要深一个数量级。值得注意的是,在包含7,482个翻译方向的多语言基准测试中,作者具有3.2B参数的200层模型,显着优于具有120亿个参数当前最佳48层模型,优势达5个BLEU点,这表明深度是有希望的扩展方向。

代码下载:https://github.com/microsoft/unilm/tree/master/deepnet

论文下载:https://arxiv.org/pdf/2203.00555.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除