- 简介现在,使用随机初始化方案而不是预训练嵌入已经成为训练基于transformer的模型的常见做法。事实上,我们发现来自GloVe的预训练词嵌入和从语言模型(如T5和mT5)中提取的一些子词嵌入相比随机初始化要差得多。这是违反预训练的已知表征和迁移学习优势的直觉的。有趣的是,我们还发现BERT和mBERT嵌入比随机初始化更好,显示了预训练表示的优势。在这项工作中,我们提出了两个可能导致这些混合结果的因素:模型对参数分布的敏感性和嵌入与位置编码的交互作用。我们观察到预训练的GloVe、T5和mT5嵌入具有更广泛的值分布。正如初始化研究中所认为的那样,这样的大值初始化可能会导致输出饱和而训练不良。此外,较大的嵌入值可以吸收较小的位置编码值,从而丢失位置信息。将预训练嵌入标准化为较窄的范围(例如Xavier所规定的范围)可以显著提高Glove、T5和mT5嵌入的性能。另一方面,BERT预训练嵌入虽然较大,但仍相对接近Xavier初始化范围,这可能使其能够有效地转移预训练知识。
- 图表
- 解决问题预训练词向量的初始化方式对于Transformer模型的训练效果有何影响?
- 关键思路论文提出预训练词向量的初始化方式对于Transformer模型的训练效果有重要影响,而不同的预训练词向量需要采用不同的初始化方式。具体而言,GloVe、T5和mT5词向量的较大值初始化会导致训练效果不佳,而BERT和mBERT词向量则需要采用较大的初始化值来保留预训练知识。
- 其它亮点论文通过实验观察发现,预训练GloVe、T5和mT5词向量的值分布较大,采用较大的初始化值会导致饱和输出和位置信息丢失,因此需要将其标准化为较小的值;而BERT和mBERT词向量的值分布相对较小,需要采用较大的初始化值来保留预训练知识。论文使用多个数据集进行实验,并公开了代码。
- 最近的相关研究包括《Attention is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
沙发等你来抢
去评论
评论
沙发等你来抢