MambaByte: Token-free Selective State Space Model

Junxiong Wang ,
Tushaar Gangavarapu ,
Jing Nathan Yan ,
Alexander M Rush
101
热度
NLP
ML
2024年01月24日
  • 简介
    这段摘要讲述了无需使用词汇标记的语言模型,它可以直接从原始字节中学习,消除了子词标记化的偏见。然而,由于操作字节会导致序列变得更长,因此标准的自回归Transformer在这种情况下的扩展性较差。作者尝试了一种名为MambaByte的方法,这是一种无需词汇标记的Mamba状态空间模型,它在字节序列上进行自回归训练。实验表明,与其他字节级模型相比,MambaByte具有较高的计算效率。作者还发现,MambaByte在性能上与甚至优于最先进的子词Transformer。此外,由于长度的线性扩展,MambaByte的推理速度比Transformer更快。作者的研究结果表明,MambaByte在实现无需词汇标记的语言建模方面具有可行性。
  • 图表
  • 解决问题
    本论文旨在解决基于字节级别的语言模型训练中,标准的自回归Transformer模型在处理长序列时的效率问题,提出了一种基于Mamba状态空间模型的无记号语言模型MambaByte。
  • 关键思路
    论文的关键思路是通过直接在原始字节上进行训练,避免了子词记号化带来的偏差,并且利用MambaByte模型的线性缩放特性,在长序列上比标准的Transformer模型更加高效。
  • 其它亮点
    论文使用MambaByte模型在字节级别上进行训练,并将其与其他基于字节的模型和子词模型进行比较,发现MambaByte模型的计算效率更高,并且在性能方面与现有的子词Transformer模型相当甚至更好。此外,论文还开源了MambaByte模型的代码和预训练模型,并使用了多个数据集进行实验验证。
  • 相关研究
    相关研究包括基于子词的语言模型,如BERT和GPT系列模型,以及基于字节的语言模型,如ByteNet和ByteLSTM。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论