基础模型,现在主要用于深度学习中的许多令人兴奋的应用,几乎普遍基于Transformer架构及其核心注意力模块。许多次线性时间的架构(如线性注意力,门控卷积和循环模型以及结构状态空间模型(SSM))已经被开发出来,以解决Transformer在长序列上的计算效率问题,但它们在重要的模态(如语言)上的表现不如注意力。我们确定这些模型的一个关键弱点是它们无法进行基于内容的推理,并进行了几项改进。首先,简单地让SSM参数成为输入的函数,就可以解决它们在离散模态下的弱点,允许模型根据当前标记有选择地沿序列长度维度传播或遗忘信息。其次,即使这种改变防止了使用高效的卷积,我们也设计了一种硬件感知的并行算法,在循环模式下进行。我们将这些选择性的SSM集成到一个简化的端到端神经网络架构中,甚至没有注意力或MLP块(Mamba)。Mamba具有快速推理(比Transformer高5倍的吞吐量)和序列长度的线性扩展,并且在真实数据上的性能提高了,可以处理长度达百万的序列。作为一种通用的序列模型骨干,Mamba在多个模态(如语言,音频和基因组学)上实现了最先进的性能。在语言建模方面,我们的Mamba-3B模型在预训练和下游评估中均优于相同大小的Transformer,并且与两倍大小的Transformer相当。
提问交流