如何在不牺牲性能的前提下减少神经网络(NN)的计算和存储要求?许多最近的研究使用稀疏的专家混合(MoEs)构建资源高效的大语言模型(LMs)。在这里,我们介绍了MoEs的几个新颖视角,提出了一个通用框架,统一了各种近似两层NN(例如Transformer的前馈块)的方法,包括产品键记忆(PKMs)。利用此框架的见解,我们提出了改进MoEs和PKMs的方法。与以前比较MoEs与密集基线的工作相比,我们的评估条件是参数相等的,这对于正确评估LMs至关重要。我们展示了我们的MoEs在WikiText-103和enwiki8数据集的两个不同规模上与密集Transformer-XL相竞争,同时更加资源高效。这表明MoEs不仅适用于极大的LMs,而且适用于任何规模的资源高效LMs。我们的代码是公开的。