- 简介本文介绍了Gemma 2,它是Gemma系列的新成员,是轻量级的最先进的开放模型,规模从20亿到270亿参数不等。在这个新版本中,我们对Transformer架构应用了几个已知的技术修改,例如交错本地-全局注意力(Beltagy等人,2020a)和组查询注意力(Ainslie等人,2023)。我们还使用知识蒸馏(Hinton等人,2015)而不是下一个令牌预测来训练2B和9B模型。由此产生的模型在其大小方面提供了最佳性能,甚至提供了与2-3倍大的模型相竞争的替代方案。我们将所有模型发布给社区。
-
- 图表
- 解决问题Gemma 2试图提出一种新的Transformer架构,以解决模型大小和性能之间的权衡问题。
- 关键思路Gemma 2采用了多种技术改进,如交错的局部-全局注意力和组查询注意力,并使用知识蒸馏来训练模型。这些改进使得Gemma 2在模型大小和性能方面都表现优异。
- 其它亮点Gemma 2是一系列轻量级、先进的开放模型之一,模型规模从20亿到270亿参数不等。论文发布了所有模型的代码。Gemma 2的性能优于同规模的其他模型,甚至有时可以替代2-3倍大小的模型。
- 最近在这个领域中,还有其他一些相关的研究,如Beltagy等人的交错的局部-全局注意力和Ainslie等人的组查询注意力。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流