Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck

简介

最近的语言建模进展在于对极大的网络文本语料进行高度参数化神经网络的预训练。在实践中，使用这种模型的训练和推断成本较高，这促使人们使用较小的模型。然而，观察到较小的模型可能会出现饱和现象，在训练的某个高级阶段性能下降，然后进入平台期。本文发现，这种饱和现象可以通过较小模型的隐藏维度和目标上下文概率分布的高秩之间不匹配来解释。这种不匹配通过众所周知的softmax瓶颈现象影响了这种模型中使用的线性预测头的性能。我们在各种设置中测量了softmax瓶颈的影响，并发现基于小于1000个隐藏维度的模型往往在预训练的后期采用退化的潜在表示，导致评估性能降低。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

探讨小型预训练模型的性能瓶颈问题，尤其是在隐藏维度较小的情况下，模型会出现性能饱和现象。
关键思路

小型预训练模型的性能瓶颈主要来自于隐藏维度与目标上下文概率分布的高秩不匹配，导致softmax瓶颈现象的出现。
其它亮点

论文通过实验测量了softmax瓶颈在不同设置下的影响，并发现基于小于1000个隐藏维度的模型在预训练后期会采用退化的潜在表示，从而导致评估性能降低。
相关研究

最近的相关研究包括使用不同的预训练策略和模型结构来提高小型预训练模型的性能，例如TinyBERT和DistilBERT等。

Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck

提问交流

提问交流