NEW

Gemma 2: Improving Open Language Models at a Practical Size

Gemma Team ,

Morgane Riviere ,

Shreya Pathak ,

Pier Giuseppe Sessa ,

Cassidy Hardin ,

Surya Bhupatiraju ,

Léonard Hussenot ,

Thomas Mesnard ,

Bobak Shahriari ,

Alexandre Ramé ,

Johan Ferret ,

Peter Liu ,

Pouya Tafti ,

Abe Friesen ,

Michelle Casbon ,

Sabela Ramos ,

Ravin Kumar ,

Charline Le Lan ,

Sammy Jerome ,

Anton Tsitsulin ,

Nino Vieillard ,

Piotr Stanczyk ,

Sertan Girgin ,

Nikola Momchev ,

Matt Hoffman ,

Shantanu Thakoor ,

Jean-Bastien Grill ,

Behnam Neyshabur ,

Olivier Bachem ,

Alanna Walton ,

Aliaksei Severyn ,

Alicia Parrish ,

Aliya Ahmad ,

Allen Hutchison ,

Alvin Abdagic ,

Amanda Carl ,

Amy Shen ,

Andy Brock ,

Andy Coenen ,

Anthony Laforge ,

Antonia Paterson ,

Ben Bastian ,

Bilal Piot ,

Bo Wu ,

Brandon Royal ,

Charlie Chen ,

Chintu Kumar ,

Chris Perry ,

Chris Welty ,

Christopher A. Choquette-Choo ,

Danila Sinopalnikov ,

David Weinberger ,

Dimple Vijaykumar ,

Dominika Rogozińska ,

Dustin Herbison ,

Elisa Bandy ,

Emma Wang ,

Eric Noland ,

Erica Moreira ,

Evan Senter ,

Evgenii Eltyshev ,

Francesco Visin ,

Gabriel Rasskin ,

Gary Wei ,

Glenn Cameron ,

Gus Martins ,

Hadi Hashemi ,

Hanna Klimczak-Plucińska ,

Harleen Batra ,

Harsh Dhand ,

Ivan Nardini ,

Jacinda Mein ,

Jack Zhou ,

James Svensson ,

Jeff Stanway ,

Jetha Chan ,

Jin Peng Zhou ,

Joana Carrasqueira ,

Joana Iljazi ,

Jocelyn Becker ,

Joe Fernandez ,

Joost van Amersfoort ,

Josh Gordon ,

Josh Lipschultz ,

Josh Newlan ,

Ju-yeong Ji ,

Kareem Mohamed ,

Kartikeya Badola ,

Kat Black ,

Katie Millican ,

Keelin McDonell ,

Kelvin Nguyen ,

Kiranbir Sodhia ,

Kish Greene ,

Lars Lowe Sjoesund ,

Lauren Usui ,

Laurent Sifre ,

Lena Heuermann ,

Leticia Lago ,

Lilly McNealus ,

Livio Baldini Soares ,

Logan Kilpatrick ,

Lucas Dixon ,

Luciano Martins ,

Machel Reid ,

Manvinder Singh ,

Mark Iverson ,

Martin Görner ,

Mat Velloso ,

Mateo Wirth ,

Matt Davidow ,

Matt Miller ,

Matthew Rahtz ,

Matthew Watson ,

Meg Risdal ,

Mehran Kazemi ,

Michael Moynihan ,

Ming Zhang ,

Minsuk Kahng ,

Minwoo Park ,

Mofi Rahman ,

Mohit Khatwani ,

Natalie Dao ,

Nenshad Bardoliwalla ,

Nesh Devanathan ,

Neta Dumai ,

Nilay Chauhan ,

Oscar Wahltinez ,

Pankil Botarda ,

Parker Barnes ,

Paul Barham ,

Paul Michel ,

Pengchong Jin ,

Petko Georgiev ,

Phil Culliton ,

Pradeep Kuppala ,

Ramona Comanescu ,

Ramona Merhej ,

Reena Jana ,

Reza Ardeshir Rokni ,

Rishabh Agarwal ,

Ryan Mullins ,

Samaneh Saadat ,

Sara Mc Carthy ,

Sarah Perrin ,

Sébastien M. R. Arnold ,

Sebastian Krause ,

Shengyang Dai ,

Shruti Garg ,

Shruti Sheth ,

Sue Ronstrom ,

Susan Chan ,

Timothy Jordan ,

Ting Yu ,

Tom Eccles ,

Tom Hennigan ,

Tomas Kocisky ,

Tulsee Doshi ,

Vihan Jain ,

Vikas Yadav ,

Vilobh Meshram ,

Vishal Dharmadhikari ,

Warren Barkley ,

Wei Wei ,

Wenming Ye ,

Woohyun Han ,

Woosuk Kwon ,

Xiang Xu ,

Zhe Shen ,

Zhitao Gong ,

Zichuan Wei ,

Victor Cotruta ,

Phoebe Kirk ,

Anand Rao ,

Minh Giang ,

Ludovic Peran ,

Tris Warkentin ,

Eli Collins ,

Joelle Barral ,

Zoubin Ghahramani ,

Raia Hadsell ,

D. Sculley ,

Jeanine Banks ,

Anca Dragan ,

Slav Petrov ,

Oriol Vinyals ,

Jeff Dean ,

Demis Hassabis ,

Koray Kavukcuoglu ,

Clement Farabet ,

Elena Buchatskaya ,

Sebastian Borgeaud ,

Noah Fiedel ,

Armand Joulin ,

Kathleen Kenealy ,

Robert Dadashi ,

Alek Andreev

热度 12

2024年07月31日

简介

本文介绍了Gemma 2，它是Gemma系列的新成员，是轻量级的最先进的开放模型，规模从20亿到270亿参数不等。在这个新版本中，我们对Transformer架构应用了几个已知的技术修改，例如交错本地-全局注意力（Beltagy等人，2020a）和组查询注意力（Ainslie等人，2023）。我们还使用知识蒸馏（Hinton等人，2015）而不是下一个令牌预测来训练2B和9B模型。由此产生的模型在其大小方面提供了最佳性能，甚至提供了与2-3倍大的模型相竞争的替代方案。我们将所有模型发布给社区。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

Gemma 2试图提出一种新的Transformer架构，以解决模型大小和性能之间的权衡问题。
关键思路

Gemma 2采用了多种技术改进，如交错的局部-全局注意力和组查询注意力，并使用知识蒸馏来训练模型。这些改进使得Gemma 2在模型大小和性能方面都表现优异。
其它亮点

Gemma 2是一系列轻量级、先进的开放模型之一，模型规模从20亿到270亿参数不等。论文发布了所有模型的代码。Gemma 2的性能优于同规模的其他模型，甚至有时可以替代2-3倍大小的模型。
相关研究

最近在这个领域中，还有其他一些相关的研究，如Beltagy等人的交错的局部-全局注意力和Ainslie等人的组查询注意力。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问