Gemma 2: Improving Open Language Models at a Practical Size

2024年07月31日
  • 简介
    在这项工作中,我们介绍了Gemma 2,它是Gemma系列的新成员,是一种轻量级、最先进的开放模型,规模从20亿到270亿个参数不等。在这个新版本中,我们应用了几种已知的技术修改Transformer架构,如交错局部-全局注意力(Beltagy等人,2020a)和组查询注意力(Ainslie等人,2023)。我们还使用知识蒸馏(Hinton等人,2015)而不是下一个标记预测来训练2B和9B模型。由此产生的模型在其大小方面提供了最佳性能,甚至提供了与2-3倍更大的模型相竞争的选择。我们将所有模型发布给社区。
  • 图表
  • 解决问题
    本文旨在介绍Gemma 2,这是Gemma系列的新成员,是一个轻量级的开放模型,参数范围从20亿到270亿。本文试图通过应用多种技术修改Transformer架构来提高模型性能,并使用知识蒸馏训练2B和9B模型,以达到最佳性能。
  • 关键思路
    本文的关键思路是通过应用多种技术修改Transformer架构来提高模型性能,如交错局部-全局注意力和组查询注意力,并使用知识蒸馏训练2B和9B模型。
  • 其它亮点
    本文的亮点包括:(1)使用多种技术修改Transformer架构,提高模型性能;(2)使用知识蒸馏训练2B和9B模型,达到最佳性能;(3)开源所有模型;(4)模型性能比同等规模的模型更好。
  • 相关研究
    在这个领域中,最近的相关研究包括:Beltagy等人的交错局部-全局注意力(2020a)和Ainslie等人的组查询注意力(2023年)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论