【自然语言处理】PowerNorm:重新思考Transformer中的批标准化 【论文标题】PowerNorm: Rethinking Batch Normalization in Transformers 【作者团队】 Sheng Shen, Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer 【发表时间】2020/03 【论文链接】https://arxiv.org/abs/2003.07845 【代码链接】https://github.com/sIncerass/powernorm 【推荐理由】 本文发表在ICML(2020)上。自然语言处理(NLP)中神经网络(NN)模型的标准归一化方法是层归一化(LN))。和计算机视觉(CV)中广泛采用的批处理归一化(BN)不同。在NLP中,使用LN的原因是通过经验观察到使用BN会导致NLP任务性能退化;然而,研究者们对其潜在原因的理解并不透彻。

本文对Transformers模型进行了系统研究,以理解为什么BN比LN性能差。作者发现,在整个训练过程中,NLP数据在批处理维度上呈现出很大的波动。如果单纯使用BN会导致不稳定的训练过程。为解决这个问题,作者提出了PowerNorm(PN),是一种新的标准化方法,具体做法是: 1、 适当取消BN中的零均值归一化; 2、 使用二次平均而不是对每个批次进行标准化,以缓解波动; 3、 用一个近似的反向传播把统计信息纳入前向传播的过程。 最后作者在一系列NLP任务中对新的PN方法进行了测试,结果表明性能显著优于LN和BN。

内容中包含的图片若涉及版权问题,请及时与我们联系删除