MoEUT: Mixture-of-Experts Universal Transformers

简介

以前的研究表明，对于通用Transformer（UT），跨层参数共享的重要性。通过允许深度上的循环，UT在学习组合泛化方面比标准Transformer具有优势，但层共享带来了一个实际限制：参数-计算比率。与具有相同维度的非共享模型相比，它大大减少了参数数量。简单地扩大层大小以弥补参数损失会使计算资源需求变得不可行。在实践中，以前的研究没有成功地提出一个共享层Transformer设计，在参数计数主导的任务（如语言建模）中具有竞争力。在这里，我们提出了MoEUT（发音为“moot”），这是一种有效的基于专家混合（MoE）的共享层Transformer架构，它结合了最近在MoE中的几个进展，用于标准Transformer的前馈层和注意层，以及特定于UT的新型层归一化和分组方案。由此产生的UT模型，首次在语言建模任务（如BLiMP和PIQA）中略微优于标准Transformer，同时使用的计算和内存资源显著更少。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本篇论文旨在解决参数共享对于参数计算比率的限制问题，提出了一种基于混合专家（MoE）的共享层Transformer架构，旨在在使用更少计算资源和内存的情况下，在语言建模任务中取得更好的性能。
关键思路

本文提出的MoEUT结合了MoE和UTs的优点，通过新颖的层归一化和分组方案实现了共享层的Transformer设计，成功地在语言建模任务中略微优于标准Transformer。
其它亮点

本文的亮点包括采用MoE和UTs的结合方案，以及新颖的层归一化和分组方案，成功地在语言建模任务中略微优于标准Transformer，同时使用更少的计算资源和内存。实验使用了BLiMP和PIQA数据集，并且开源了相关代码。
相关研究

近期的相关研究包括《Attention is All You Need》、《Transformer-XL》、《Universal Transformers》等。

MoEUT: Mixture-of-Experts Universal Transformers

提问交流

提问交流