MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

简介

国家空间模型（SSM）已成为时序建模领域的严肃竞争者，挑战了Transformer的主导地位。同时，专家混合模型（MoE）显著改善了基于Transformer的LLM，包括最近的最先进的开源模型。我们建议将MoE与SSM相结合，以释放SSM在扩展方面的潜力。我们在最近的基于SSM的模型Mamba上展示了这一点，该模型实现了出色的、类似于Transformer的性能。我们的模型MoE-Mamba优于Mamba和Transformer-MoE。特别是，MoE-Mamba在保留Mamba对Transformer的推理性能优势的同时，在2.2倍的训练步骤中达到与Mamba相同的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

将Mixture of Experts与State Space Models相结合，以提高SSMs的可扩展性和性能
关键思路

将Mixture of Experts与SSMs相结合，形成新模型MoE-Mamba，提高了SSMs的性能，比Mamba和Transformer-MoE表现更好
其它亮点

MoE-Mamba模型在2.2倍的训练步骤内达到了与Mamba相同的性能，并保持了Mamba在推理性能方面的优势；使用了最新的State Space Models和Mixture of Experts技术；实验结果表明，MoE-Mamba在多个数据集上都表现优异
相关研究

最近的相关研究包括使用SSMs和MoE的其他模型，如MoE-SSM和MoE-Transformer