- 简介我们介绍了RecurrentGemma,这是一个使用谷歌新的Griffin架构的开放式语言模型。Griffin将线性递归与局部注意力相结合,以在语言处理方面取得出色的性能。它具有固定大小的状态,可以减少内存使用量,并且能够对长序列进行有效的推断。我们提供了一个预训练模型,具有2B个非嵌入参数,以及一个经过调整的变体。尽管这两个模型训练的标记较少,但它们都实现了与Gemma-2B相当的性能。
- 图表
- 解决问题论文介绍了一种名为RecurrentGemma的开放式语言模型,旨在提高语言生成的性能和效率。
- 关键思路RecurrentGemma使用Google的Griffin架构,将线性递归和局部注意力相结合,实现了出色的语言生成性能。其固定大小的状态降低了内存使用,并能够有效地推断长序列。
- 其它亮点论文提供了一个预训练模型,具有2B非嵌入参数和一个经过调整的变体。尽管训练的令牌数量较少,但两个模型都达到了与Gemma-2B相当的性能。
- 最近在这个领域中,还有一些相关的研究,如GPT-3、BERT等。
沙发等你来抢
去评论
评论
沙发等你来抢