ResiDual: Transformer with Dual Residual Connections

解决问题:本篇论文旨在解决Transformer中残差连接的最佳实现方式问题,该问题对于训练Transformer网络至关重要。同时,论文也试图验证新提出的ResiDual Transformer的有效性。

关键思路:论文提出了一种新的Transformer网络结构ResiDual,它采用了Pre-Post-LN (PPLN)残差连接方式,将Post-LN和Pre-LN的优点融合在一起,同时避免了它们各自的局限性。在理论和实验分析中,论文证明了ResiDual具有更好的梯度下降性能和更多的模型表示能力,相比于Pre-LN和Post-LN,ResiDual在多个机器翻译基准测试中表现更好。

其他亮点:论文的代码已经在https://github.com/microsoft/ResiDual开源。ResiDual Transformer还可以作为不同AI模型(如大型语言模型)的基础架构。

关于作者:本文的主要作者包括Shufang Xie、Huishuai Zhang、Junliang Guo、Xu Tan、Jiang Bian、Hany Hassan Awadalla和Arul Menezes。他们来自微软研究院和微软公司。Shufang Xie之前的代表作包括“Unsupervised Data Augmentation for Consistency Training”和“Semi-Supervised Learning with Normalizing Flows”。Huishuai Zhang之前的代表作包括“Attention is All You Need”和“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”。

相关研究:与本文相关的其他研究包括“Understanding and Improving Transformer From a Multi-Particle Dynamic System Point of View”(作者:Zeyuan Allen-Zhu,Yuanzhi Li,Zhengyuan Zhou,Arvind Singh,Yining Wang,Yuan Zhou;机构:Princeton University,Microsoft Research Asia)、“ReZero is All You Need: Fast Convergence at Large Depth”(作者:Yunpeng Chen,Xiaohan Ding,Haoqi Fan,Yang Song,Jiashi Feng;机构:National University of Singapore,NVIDIA AI Technology Center)等。

论文摘要:本文介绍了一种名为ResiDual的新型Transformer架构,该架构融合了Post-LN和Pre-LN两种变体的优点,同时避免了它们的缺点。Post-LN和Pre-LN分别在残差块输出后和输入前应用层归一化,两种变体都有优点,但也存在严重限制。本文理论分析和实验验证了ResiDual的有效性,理论上证明了ResiDual具有梯度下降的下限,以避免Pre-LN残差连接引起的梯度消失问题,并且ResiDual还具有多样化的模型表示,以避免Post-LN残差连接引起的表示崩溃问题。实验结果表明,ResiDual在多个机器翻译基准测试中表现优异,超过了Post-LN和Pre-LN。ResiDual Transformer可以作为不同AI模型(例如大型语言模型)的基础架构。我们的代码可在https://github.com/microsoft/ResiDual上获得。

内容中包含的图片若涉及版权问题,请及时与我们联系删除