- 简介我们提出了一种名为Hawk的RNN,其具有门控线性递归,以及一种名为Griffin的混合模型,它将门控线性递归与本地注意力相结合。Hawk在下游任务中的表现超过了Mamba的报告性能,而Griffin尽管训练的令牌数量只有Llama-2的六分之一,但其表现与Llama-2相当。我们还展示了Griffin可以推广到比训练时看到的序列长得多的序列。我们的模型在训练期间与Transformer的硬件效率相匹配,在推理期间具有更低的延迟和显着更高的吞吐量。我们将Griffin扩展到14B个参数,并解释了如何将我们的模型分片以实现有效的分布式训练。
-
- 图表
- 解决问题本论文旨在解决RNN训练难度大、扩展性差的问题,提出了Hawk和Griffin两种模型,旨在提高模型性能和硬件效率。
- 关键思路Hawk模型采用门控线性循环结构,Griffin模型将门控线性循环结构和本地注意力相结合,实现了在训练和推理时的硬件效率优化。
- 其它亮点论文通过实验表明,Hawk模型在下游任务中的表现超过了Mamba模型,Griffin模型在训练了6倍少的数据后,与Llama-2模型的表现相当。Griffin模型还可以在比训练时长的序列上进行外推。此外,作者还将Griffin模型扩展到了14B参数,并介绍了如何将模型分片以实现高效分布式训练。
- 近期在这个领域的相关研究包括:Llama-2、Mamba等。
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流