- 简介最近,状态空间模型(SSMs)在大规模语言建模基准测试中展现出了与Transformer相竞争的性能,同时实现了与序列长度成线性关系的时间和内存复杂度。最近发布的SSM模型Mamba在语言建模和长序列处理任务方面表现出色。同时,专家混合模型(MoE)表现出了卓越的性能,同时显著降低了推理的计算和延迟成本,但代价是更大的内存占用。本文提出了BlackMamba,这是一种将Mamba SSM与MoE相结合的新型架构,以获得两者的优点。我们证明BlackMamba在与Mamba和Transformer基准的竞争中表现出色,并在推理和训练FLOPs方面表现出色。我们完全训练并开源了340M / 1.5B和630M / 2.8B BlackMamba模型,这些模型使用自定义数据集的300B令牌。我们展示了BlackMamba继承并结合了SSM和MoE架构的优点,将SSM的线性复杂度生成与MoE的廉价和快速推理相结合。我们开源了所有权重、检查点和推理代码。推理代码位于:https://github.com/Zyphra/BlackMamba。
- 图表
- 解决问题BlackMamba论文试图将Mamba SSM和MoE相结合,以获得两者的优点,解决长序列处理和语言建模的问题。该论文也试图验证这种结合的有效性。
- 关键思路BlackMamba将Mamba SSM和MoE结合,以获得线性时间和内存复杂度的生成,同时具有廉价和快速的推理,从而在长序列处理和语言建模任务中获得竞争性的性能。
- 其它亮点BlackMamba模型在长序列处理和语言建模任务中表现出竞争性的性能,超过了Mamba和transformer基线模型。该论文开源了340M/1.5B和630M/2.8B BlackMamba模型的所有权重、检查点和推理代码。论文还介绍了实验的设计和使用的数据集。
- 最近的相关研究包括使用SSM和MoE进行语言建模的其他工作,如Gshard和Turing NLG。
沙发等你来抢
去评论
评论
沙发等你来抢