MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

2024年01月08日
  • 简介
    国家空间模型(SSM)已成为时序建模领域的严肃竞争者,挑战了Transformer的主导地位。同时,专家混合模型(MoE)显著改善了基于Transformer的LLM,包括最近的最先进的开源模型。我们建议将MoE与SSM相结合,以释放SSM在扩展方面的潜力。我们在最近的基于SSM的模型Mamba上展示了这一点,该模型实现了出色的、类似于Transformer的性能。我们的模型MoE-Mamba优于Mamba和Transformer-MoE。特别是,MoE-Mamba在保留Mamba对Transformer的推理性能优势的同时,在2.2倍的训练步骤中达到与Mamba相同的性能。
  • 图表
  • 解决问题
    将Mixture of Experts与State Space Models相结合,以提高SSMs的可扩展性和性能
  • 关键思路
    将Mixture of Experts与SSMs相结合,形成新模型MoE-Mamba,提高了SSMs的性能,比Mamba和Transformer-MoE表现更好
  • 其它亮点
    MoE-Mamba模型在2.2倍的训练步骤内达到了与Mamba相同的性能,并保持了Mamba在推理性能方面的优势;使用了最新的State Space Models和Mixture of Experts技术;实验结果表明,MoE-Mamba在多个数据集上都表现优异
  • 相关研究
    最近的相关研究包括使用SSMs和MoE的其他模型,如MoE-SSM和MoE-Transformer
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论