Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models

2024年03月14日
  • 简介
    尽管transformer模型取得了巨大的成功,但其深度扩展仍然具有挑战性。在这项工作中,我们开发了一种统一的信号传播理论,并提供了控制transformer模型前向和反向信号矩的公式。我们的框架可用于理解和缓解与高注意力得分相关的梯度消失/爆炸、排名崩溃和不稳定性。我们还提出了DeepScaleLM,一种初始化和缩放方案,可以保持整个模型的单元输出/梯度矩,从而使得可以训练具有数百层的非常深的模型,且参数更少的深层模型在语言建模、语音翻译和图像分类等方面的性能优于浅层模型,包括仅编码器、仅解码器和编码器-解码器变体,以及Pre-LN和Post-LN transformer,在多个数据集和模型大小上都是如此。这些改进还转化为对下游问答任务的性能提高和图像分类的鲁棒性提高。
  • 图表
  • 解决问题
    本文旨在解决Transformer模型在深度扩展方面存在的问题,如梯度消失/爆炸、秩崩溃和不稳定性等。作者提出了一种信号传播理论和公式,用于控制Transformer模型前向和后向信号的矩。
  • 关键思路
    本文提出了DeepScaleLM,一种初始化和缩放方案,通过整个模型保持单元输出/梯度矩的方法,使得可以训练具有数百层的非常深的模型。作者发现Transformer模型可以更深,深层模型在多个数据集和模型大小的语言建模、语音翻译和图像分类中胜过浅层模型。
  • 其它亮点
    本文的亮点包括提出了一种信号传播理论和公式,提出了DeepScaleLM初始化和缩放方案,使得可以训练非常深的Transformer模型。作者的实验结果表明,深层模型在多个数据集和模型大小的任务中胜过浅层模型,这也提高了图像分类的鲁棒性。
  • 相关研究
    与本文相关的其他研究包括:1.《Attention Is All You Need》;2.《Improving Transformer Models by Reordering their Sublayers》;3.《On the Relationship between Self-Attention and Convolutional Layers》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论