Norm,也即 Normalization,已经是深度神经网络模型中非常常规的操作了,但它背后的实现,原理和作用等,其实我们可以理解的更细致,本文会以最常用的 BatchNorm 和 LayerNorm 为例(其他 Norm 方法大同小异),通过 Q&A 的形式,去深入理解关于 Norm 的细节知识点。

  1. BN 在训练和测试时的差异
  2. BN 中的移动平均 Moving Average 是怎么做的?
  3. 移动平均中 Momentum 参数的影响
  4. Norm 中的标准化、平移和缩放的作用
  5. 不同 Norm 方法中都有哪些参数要保存?
  6. BN 和 LN 有哪些差异?
  7. 为什么 BERT 使用 LN,而不使用 BN?
  8. 如何去理解在哪一个维度做 Norm?

内容中包含的图片若涉及版权问题,请及时与我们联系删除