- 简介在这项工作中,我们介绍了Gemma 2,它是Gemma系列的新成员,是一种轻量级、最先进的开放模型,规模从20亿到270亿个参数不等。在这个新版本中,我们应用了几种已知的技术修改Transformer架构,如交错局部-全局注意力(Beltagy等人,2020a)和组查询注意力(Ainslie等人,2023)。我们还使用知识蒸馏(Hinton等人,2015)而不是下一个标记预测来训练2B和9B模型。由此产生的模型在其大小方面提供了最佳性能,甚至提供了与2-3倍更大的模型相竞争的选择。我们将所有模型发布给社区。
- 图表
- 解决问题本文旨在介绍Gemma 2,这是Gemma系列的新成员,是一个轻量级的开放模型,参数范围从20亿到270亿。本文试图通过应用多种技术修改Transformer架构来提高模型性能,并使用知识蒸馏训练2B和9B模型,以达到最佳性能。
- 关键思路本文的关键思路是通过应用多种技术修改Transformer架构来提高模型性能,如交错局部-全局注意力和组查询注意力,并使用知识蒸馏训练2B和9B模型。
- 其它亮点本文的亮点包括:(1)使用多种技术修改Transformer架构,提高模型性能;(2)使用知识蒸馏训练2B和9B模型,达到最佳性能;(3)开源所有模型;(4)模型性能比同等规模的模型更好。
- 在这个领域中,最近的相关研究包括:Beltagy等人的交错局部-全局注意力(2020a)和Ainslie等人的组查询注意力(2023年)。
沙发等你来抢
去评论
评论
沙发等你来抢