- 简介以前的研究表明,对于通用Transformer(UT),跨层参数共享的重要性。通过允许深度上的循环,UT在学习组合泛化方面比标准Transformer具有优势,但层共享带来了一个实际限制:参数-计算比率。与具有相同维度的非共享模型相比,它大大减少了参数数量。简单地扩大层大小以弥补参数损失会使计算资源需求变得不可行。在实践中,以前的研究没有成功地提出一个共享层Transformer设计,在参数计数主导的任务(如语言建模)中具有竞争力。在这里,我们提出了MoEUT(发音为“moot”),这是一种有效的基于专家混合(MoE)的共享层Transformer架构,它结合了最近在MoE中的几个进展,用于标准Transformer的前馈层和注意层,以及特定于UT的新型层归一化和分组方案。由此产生的UT模型,首次在语言建模任务(如BLiMP和PIQA)中略微优于标准Transformer,同时使用的计算和内存资源显著更少。
-
- 图表
- 解决问题本篇论文旨在解决参数共享对于参数计算比率的限制问题,提出了一种基于混合专家(MoE)的共享层Transformer架构,旨在在使用更少计算资源和内存的情况下,在语言建模任务中取得更好的性能。
- 关键思路本文提出的MoEUT结合了MoE和UTs的优点,通过新颖的层归一化和分组方案实现了共享层的Transformer设计,成功地在语言建模任务中略微优于标准Transformer。
- 其它亮点本文的亮点包括采用MoE和UTs的结合方案,以及新颖的层归一化和分组方案,成功地在语言建模任务中略微优于标准Transformer,同时使用更少的计算资源和内存。实验使用了BLiMP和PIQA数据集,并且开源了相关代码。
- 近期的相关研究包括《Attention is All You Need》、《Transformer-XL》、《Universal Transformers》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流