Zamba: A Compact 7B SSM Hybrid Model

2024年05月26日
  • 简介
    在这份技术报告中,我们介绍了Zamba,这是一种新颖的7B SSM-transformer混合模型,其在与同等规模的领先开放式权重模型相比的竞争性能方面取得了不错的成绩。Zamba是在公开可用的数据集上训练的,使用了1T个标记,并且是该规模下最好的非transformer模型。Zamba开创了一种独特的架构,将Mamba主干与单个共享注意模块相结合,从而以最小的参数成本获得注意力的好处。由于其架构,Zamba在推理时比可比的transformer模型快得多,并且在生成长序列时需要的内存明显更少。Zamba分为两个预训练阶段:第一阶段基于现有的网络数据集,而第二阶段则包括通过高质量的指令和合成数据集来退火模型,并具有快速的学习率衰减特性。我们通过第一阶段和退火阶段开源了Zamba的权重和所有检查点。
  • 图表
  • 解决问题
    Zamba模型试图解决在较小的参数量下实现与大型Transformer模型相似的性能的问题。同时,它还试图减少生成长序列时所需的内存和推理时间。
  • 关键思路
    Zamba模型采用了一种新的架构,将Mamba骨干网络与单个共享注意力模块相结合,以最小的参数成本获得注意力的好处。该模型分为两个阶段进行预训练,第一阶段基于现有的Web数据集,第二阶段则是通过高质量的指导和合成数据集退火模型。
  • 其它亮点
    Zamba模型是目前在这个规模下最好的非Transformer模型,同时它在推理时比可比的Transformer模型快得多,并且需要更少的内存来生成长序列。该论文提供了Zamba模型的权重和所有检查点的开源代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如T5模型、GPT-3模型等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论