RecurrentGemma: Moving Past Transformers for Efficient Open Language Models

Aleksandar Botev ,
Soham De ,
Samuel L Smith ,
Anushan Fernando ,
George-Cristian Muraru ,
Ruba Haroun ,
Leonard Berrada ,
Razvan Pascanu ,
Pier Giuseppe Sessa ,
Robert Dadashi ,
Léonard Hussenot ,
Johan Ferret ,
Sertan Girgin ,
Olivier Bachem ,
Alek Andreev ,
Kathleen Kenealy ,
Thomas Mesnard ,
Cassidy Hardin ,
Surya Bhupatiraju ,
Shreya Pathak ,
Laurent Sifre ,
Morgane Rivière ,
Mihir Sanjay Kale ,
Juliette Love ,
Pouya Tafti ,
Armand Joulin ,
Noah Fiedel ,
Evan Senter ,
Yutian Chen ,
Srivatsan Srinivasan ,
Guillaume Desjardins ,
David Budden ,
Arnaud Doucet ,
Sharad Vikram ,
Adam Paszke ,
Trevor Gale ,
Sebastian Borgeaud ,
Charlie Chen ,
Andy Brock ,
Antonia Paterson ,
Jenny Brennan ,
Meg Risdal ,
Raj Gundluru ,
Nesh Devanathan ,
Paul Mooney ,
Nilay Chauhan ,
Phil Culliton ,
Luiz GUStavo Martins ,
Elisa Bandy ,
David Huntsperger ,
Glenn Cameron ,
Arthur Zucker ,
Tris Warkentin ,
Ludovic Peran ,
Minh Giang ,
Zoubin Ghahramani ,
Clément Farabet ,
Koray Kavukcuoglu ,
Demis Hassabis ,
Raia Hadsell ,
Yee Whye Teh ,
Nando de Frietas
2024年04月11日
  • 简介
    我们介绍了RecurrentGemma,这是一个使用谷歌新的Griffin架构的开放式语言模型。Griffin将线性递归与局部注意力相结合,以在语言处理方面取得出色的性能。它具有固定大小的状态,可以减少内存使用量,并且能够对长序列进行有效的推断。我们提供了一个预训练模型,具有2B个非嵌入参数,以及一个经过调整的变体。尽管这两个模型训练的标记较少,但它们都实现了与Gemma-2B相当的性能。
  • 图表
  • 解决问题
    论文介绍了一种名为RecurrentGemma的开放式语言模型,旨在提高语言生成的性能和效率。
  • 关键思路
    RecurrentGemma使用Google的Griffin架构,将线性递归和局部注意力相结合,实现了出色的语言生成性能。其固定大小的状态降低了内存使用,并能够有效地推断长序列。
  • 其它亮点
    论文提供了一个预训练模型,具有2B非嵌入参数和一个经过调整的变体。尽管训练的令牌数量较少,但两个模型都达到了与Gemma-2B相当的性能。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如GPT-3、BERT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论