- 简介如何在不牺牲性能的前提下减少神经网络(NN)的计算和存储要求?许多最近的研究使用稀疏的专家混合(MoEs)构建资源高效的大语言模型(LMs)。在这里,我们介绍了MoEs的几个新颖视角,提出了一个通用框架,统一了各种近似两层NN(例如Transformer的前馈块)的方法,包括产品键记忆(PKMs)。利用此框架的见解,我们提出了改进MoEs和PKMs的方法。与以前比较MoEs与密集基线的工作相比,我们的评估条件是参数相等的,这对于正确评估LMs至关重要。我们展示了我们的MoEs在WikiText-103和enwiki8数据集的两个不同规模上与密集Transformer-XL相竞争,同时更加资源高效。这表明MoEs不仅适用于极大的LMs,而且适用于任何规模的资源高效LMs。我们的代码是公开的。
- 解决问题如何减少神经网络(NN)的计算和内存要求,同时不影响性能?
- 关键思路使用稀疏的专家混合(MoEs)来构建资源高效的大型语言模型(LMs),并提出了一个统一的框架来近似两层神经网络(例如,Transformer的前馈块),包括产品键记忆(PKMs)。
- 其它亮点论文提出了一些改进MoEs和PKMs的方法,并展示了这些方法在WikiText-103和enwiki8数据集上的性能。与稠密的基线相比,这些MoEs在资源利用率上更有优势。论文的代码也是公开的。
- 最近的相关研究包括:《Efficient Transformers: A Survey》、《Exploring Sparsity in Recurrent Neural Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢