Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

2024年02月29日
  • 简介
    我们提出了一种名为Hawk的RNN,其具有门控线性递归,以及一种名为Griffin的混合模型,它将门控线性递归与本地注意力相结合。Hawk在下游任务中的表现超过了Mamba的报告性能,而Griffin尽管训练的令牌数量只有Llama-2的六分之一,但其表现与Llama-2相当。我们还展示了Griffin可以推广到比训练时看到的序列长得多的序列。我们的模型在训练期间与Transformer的硬件效率相匹配,在推理期间具有更低的延迟和显着更高的吞吐量。我们将Griffin扩展到14B个参数,并解释了如何将我们的模型分片以实现有效的分布式训练。
  • 作者讲解·2
  • 图表
  • 解决问题
    本论文旨在解决RNN训练难度大、扩展性差的问题,提出了Hawk和Griffin两种模型,旨在提高模型性能和硬件效率。
  • 关键思路
    Hawk模型采用门控线性循环结构,Griffin模型将门控线性循环结构和本地注意力相结合,实现了在训练和推理时的硬件效率优化。
  • 其它亮点
    论文通过实验表明,Hawk模型在下游任务中的表现超过了Mamba模型,Griffin模型在训练了6倍少的数据后,与Llama-2模型的表现相当。Griffin模型还可以在比训练时长的序列上进行外推。此外,作者还将Griffin模型扩展到了14B参数,并介绍了如何将模型分片以实现高效分布式训练。
  • 相关研究
    近期在这个领域的相关研究包括:Llama-2、Mamba等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问