在比较Mamba和transformers在多个语音相关任务的性能和效率之前,我们还不能得出Mamba是语音领域更好的替代方案的结论。为了得出结论,我们提出并评估了三个模型用于三个任务:用于语音分离的Mamba-TasNet,用于语音识别的ConMamba和用于语音合成的VALL-M。我们在性能、内存和速度方面将它们与大小相似的transformers进行比较。我们的Mamba或Mamba-transformer混合模型在性能上比它们的transformer对应模型Sepformer、Conformer和VALL-E表现相当或更高。对于超过阈值持续时间的语音,它们比transformers更高效,内存和速度更高,与语音令牌的分辨率成反比。分离的Mamba最高效,识别的Mamba最低效。此外,我们还表明,Mamba对于持续时间短于阈值的语音而言并不比transformer更高效,并且在需要对文本和语音进行联合建模的模型(如两个输入的交叉或遮蔽注意力)中表现更差。因此,我们认为Mamba或transformer的优越性取决于特定的问题和模型。代码可在https://github.com/xi-j/Mamba-TasNet和https://github.com/xi-j/Mamba-ASR中获得。
提问交流