- 简介预训练语言模型已被证明具有强大的基础能力,不仅在分布式语言建模方面表现出色,而且在分布外语言建模、迁移学习和少样本学习方面也表现出强大的能力。与现有工作侧重于规模对基础能力的影响不同,我们的工作研究了架构对基础能力的影响。具体而言,我们关心的是:架构如何影响预训练语言模型的基础能力?在这项工作中,我们试图解释和逆转FFN-Wider Transformers架构引起的基础能力下降,以提供一些见解。通过分析,我们发现多头注意力(一种组合函数)对预训练语言建模的贡献比是影响基础能力的关键因素。FFN-Wider Transformers减少了这种组合函数的贡献比,导致基础能力下降。我们通过实验证实了这一点,并提出了组合增强架构(CEA)来解决这些模型的基础能力下降问题。值得注意的是,我们将我们的解释和CEA扩展到了混合专家(MoE)架构Transformers中,也在一定程度上缓解了它们的基础能力下降,证明我们的工作可以为架构分析、架构改进和架构设计提供有用的指导。
- 图表
- 解决问题本文试图解决的问题是:探究神经网络结构对预训练语言模型基本能力的影响,并提出相应的解决方案。这是一个新问题。
- 关键思路本文的关键思路是:通过分析多头注意力对预训练语言模型的贡献比例,发现神经网络结构对预训练语言模型基本能力有较大影响,提出了组合增强架构(CEA)来解决这个问题。此外,本文还将CEA扩展到了MoE架构Transformers,证明了这个方法的实用性。
- 其它亮点本文的亮点有:提出了CEA解决神经网络结构对预训练语言模型基本能力的影响问题,通过实验验证了CEA的有效性。同时,本文还扩展了CEA到MoE架构Transformers,并进行了实验验证。实验使用了多个数据集,并开源了代码。值得进一步深入研究。
- 最近在这个领域中,还有一些相关研究,例如:《Scaling Laws for Neural Language Models》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
沙发等你来抢
去评论
评论
沙发等你来抢