Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

简介

我们提出了一种名为Hawk的RNN，其具有门控线性递归，以及一种名为Griffin的混合模型，它将门控线性递归与本地注意力相结合。Hawk在下游任务中的表现超过了Mamba的报告性能，而Griffin尽管训练的令牌数量只有Llama-2的六分之一，但其表现与Llama-2相当。我们还展示了Griffin可以推广到比训练时看到的序列长得多的序列。我们的模型在训练期间与Transformer的硬件效率相匹配，在推理期间具有更低的延迟和显着更高的吞吐量。我们将Griffin扩展到14B个参数，并解释了如何将我们的模型分片以实现有效的分布式训练。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

本论文旨在解决RNN训练难度大、扩展性差的问题，提出了Hawk和Griffin两种模型，旨在提高模型性能和硬件效率。
关键思路

Hawk模型采用门控线性循环结构，Griffin模型将门控线性循环结构和本地注意力相结合，实现了在训练和推理时的硬件效率优化。
其它亮点

论文通过实验表明，Hawk模型在下游任务中的表现超过了Mamba模型，Griffin模型在训练了6倍少的数据后，与Llama-2模型的表现相当。Griffin模型还可以在比训练时长的序列上进行外推。此外，作者还将Griffin模型扩展到了14B参数，并介绍了如何将模型分片以实现高效分布式训练。
相关研究

近期在这个领域的相关研究包括：Llama-2、Mamba等。

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

提问交流

提问交流