- 简介国家空间模型(SSM)已成为时序建模领域的严肃竞争者,挑战了Transformer的主导地位。同时,专家混合模型(MoE)显著改善了基于Transformer的LLM,包括最近的最先进的开源模型。我们建议将MoE与SSM相结合,以释放SSM在扩展方面的潜力。我们在最近的基于SSM的模型Mamba上展示了这一点,该模型实现了出色的、类似于Transformer的性能。我们的模型MoE-Mamba优于Mamba和Transformer-MoE。特别是,MoE-Mamba在保留Mamba对Transformer的推理性能优势的同时,在2.2倍的训练步骤中达到与Mamba相同的性能。
- 图表
- 解决问题将Mixture of Experts与State Space Models相结合,以提高SSMs的可扩展性和性能
- 关键思路将Mixture of Experts与SSMs相结合,形成新模型MoE-Mamba,提高了SSMs的性能,比Mamba和Transformer-MoE表现更好
- 其它亮点MoE-Mamba模型在2.2倍的训练步骤内达到了与Mamba相同的性能,并保持了Mamba在推理性能方面的优势;使用了最新的State Space Models和Mixture of Experts技术;实验结果表明,MoE-Mamba在多个数据集上都表现优异
- 最近的相关研究包括使用SSMs和MoE的其他模型,如MoE-SSM和MoE-Transformer
沙发等你来抢
去评论
评论
沙发等你来抢