Approximating Two-Layer Feedforward Networks for Efficient Transformers

简介

如何在不牺牲性能的前提下减少神经网络（NN）的计算和存储要求？许多最近的研究使用稀疏的专家混合（MoEs）构建资源高效的大语言模型（LMs）。在这里，我们介绍了MoEs的几个新颖视角，提出了一个通用框架，统一了各种近似两层NN（例如Transformer的前馈块）的方法，包括产品键记忆（PKMs）。利用此框架的见解，我们提出了改进MoEs和PKMs的方法。与以前比较MoEs与密集基线的工作相比，我们的评估条件是参数相等的，这对于正确评估LMs至关重要。我们展示了我们的MoEs在WikiText-103和enwiki8数据集的两个不同规模上与密集Transformer-XL相竞争，同时更加资源高效。这表明MoEs不仅适用于极大的LMs，而且适用于任何规模的资源高效LMs。我们的代码是公开的。
解决问题

如何减少神经网络（NN）的计算和内存要求，同时不影响性能？
关键思路

使用稀疏的专家混合（MoEs）来构建资源高效的大型语言模型（LMs），并提出了一个统一的框架来近似两层神经网络（例如，Transformer的前馈块），包括产品键记忆（PKMs）。
其它亮点

论文提出了一些改进MoEs和PKMs的方法，并展示了这些方法在WikiText-103和enwiki8数据集上的性能。与稠密的基线相比，这些MoEs在资源利用率上更有优势。论文的代码也是公开的。
相关研究

最近的相关研究包括：《Efficient Transformers: A Survey》、《Exploring Sparsity in Recurrent Neural Networks》等。

Approximating Two-Layer Feedforward Networks for Efficient Transformers

评论