- 简介这份报告介绍了我们最新的大型语言模型和大型多模态模型——Qwen2系列。我们发布了一套全面的基础和指令调整的语言模型,涵盖了从0.5到720亿的参数范围,包括密集模型和专家混合模型。Qwen2在包括其前身Qwen1.5在内的大多数先前的开放权重模型上都表现出色,并在语言理解、生成、多语言能力、编码、数学和推理等各种基准测试中展现出与专有模型相当的竞争力。 旗舰模型Qwen2-72B展现出了卓越的性能:在MMLU上达到84.2,在GPQA上达到37.9,在HumanEval上达到64.6,在GSM8K上达到89.5,在BBH上达到82.4作为基本语言模型。指令调整的变体Qwen2-72B-Instruct在MT-Bench上达到9.1,在Arena-Hard上达到48.1,在LiveCodeBench上达到35.7。此外,Qwen2展示了强大的多语言能力,精通约30种语言,包括英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,突显其多功能性和全球覆盖面。 为了促进社区创新和可访问性,我们已经在Hugging Face和ModelScope上公开发布了Qwen2模型权重,以及在GitHub上的示例代码等补充材料。这些平台还包括量化、微调和部署资源,便于各种应用和研究工作。
- 图表
- 解决问题Qwen2系列旨在推出一系列基础和指令调整的大型语言模型,以应对语言理解、生成、多语言能力、编码、数学和推理等多个领域的挑战。
- 关键思路Qwen2系列包含从0.5到72亿参数的模型,采用密集模型和专家混合模型,超越了以前的大多数开放权重模型,展现了出色的性能表现。Qwen2还展示了出色的多语言能力,擅长于约30种语言。
- 其它亮点Qwen2-72B作为旗舰模型,在多个基准测试中表现出色,Qwen2-72B-Instruct在不同的任务上也有不错的表现。研究人员还开放了模型权重,并提供了量化、微调和部署的资源,以促进社区创新和可访问性。
- 最近的相关研究包括GPT-3、T5等大型语言模型。
沙发等你来抢
去评论
评论
沙发等你来抢