BlackMamba: Mixture of Experts for State-Space Models

简介

最近，状态空间模型（SSMs）在大规模语言建模基准测试中展现出了与Transformer相竞争的性能，同时实现了与序列长度成线性关系的时间和内存复杂度。最近发布的SSM模型Mamba在语言建模和长序列处理任务方面表现出色。同时，专家混合模型（MoE）表现出了卓越的性能，同时显著降低了推理的计算和延迟成本，但代价是更大的内存占用。本文提出了BlackMamba，这是一种将Mamba SSM与MoE相结合的新型架构，以获得两者的优点。我们证明BlackMamba在与Mamba和Transformer基准的竞争中表现出色，并在推理和训练FLOPs方面表现出色。我们完全训练并开源了340M / 1.5B和630M / 2.8B BlackMamba模型，这些模型使用自定义数据集的300B令牌。我们展示了BlackMamba继承并结合了SSM和MoE架构的优点，将SSM的线性复杂度生成与MoE的廉价和快速推理相结合。我们开源了所有权重、检查点和推理代码。推理代码位于：https://github.com/Zyphra/BlackMamba。
图表
解决问题

BlackMamba论文试图将Mamba SSM和MoE相结合，以获得两者的优点，解决长序列处理和语言建模的问题。该论文也试图验证这种结合的有效性。
关键思路

BlackMamba将Mamba SSM和MoE结合，以获得线性时间和内存复杂度的生成，同时具有廉价和快速的推理，从而在长序列处理和语言建模任务中获得竞争性的性能。
其它亮点

BlackMamba模型在长序列处理和语言建模任务中表现出竞争性的性能，超过了Mamba和transformer基线模型。该论文开源了340M/1.5B和630M/2.8B BlackMamba模型的所有权重、检查点和推理代码。论文还介绍了实验的设计和使用的数据集。
相关研究

最近的相关研究包括使用SSM和MoE进行语言建模的其他工作，如Gshard和Turing NLG。

BlackMamba: Mixture of Experts for State-Space Models

评论