Qwen2.5 Technical Report

2024年12月19日
  • 简介
    在本报告中,我们介绍了Qwen2.5,这是一系列设计用于满足多样化需求的大型语言模型(LLM)。与之前的版本相比,Qwen2.5在预训练和后训练阶段都有了显著改进。在预训练方面,我们将高质量预训练数据集从之前的7万亿个标记扩展到了18万亿个标记,这为常识、专业知识和推理能力提供了坚实的基础。在后训练方面,我们实施了超过一百万个样本的复杂监督微调以及多阶段强化学习。这些后训练技术增强了人类偏好,并显著改善了长文本生成、结构化数据分析和指令遵循。 为了有效处理多样化的应用场景,我们推出了多种尺寸丰富的Qwen2.5 LLM系列。开放权重版本包括基础模型和指令微调模型,并提供量化版本。此外,对于托管解决方案,目前专有模型包括两种专家混合(MoE)变体:Qwen2.5-Turbo和Qwen2.5-Plus,均来自阿里云模型工作室。Qwen2.5在广泛的语言理解、推理、数学、编程、人类偏好对齐等基准测试中表现出顶级性能。特别是,开放权重旗舰版Qwen2.5-72B-Instruct超越了许多开源和专有模型,并展现出与最先进的开源模型Llama-3-405B-Instruct相当的性能,而后者规模大约是其五倍。Qwen2.5-Turbo和Qwen2.5-Plus在成本效益上具有优势,同时在性能上分别与GPT-4o-mini和GPT-4o竞争。 此外,作为基础,Qwen2.5模型在训练专门模型如Qwen2.5-Math、Qwen2.5-Coder、QwQ和多模态模型等方面发挥了重要作用。
  • 图表
  • 解决问题
    论文试图解决构建更强大、更灵活的大型语言模型(LLMs)的问题,以满足多样化的应用需求。这不仅涉及提高模型在各种任务上的性能,还涉及优化成本效益和处理特定领域的复杂任务。这是一个持续演进的研究领域,Qwen2.5旨在通过改进预训练和后训练技术来实现这些目标。
  • 关键思路
    关键思路在于显著扩展预训练数据集的规模(从7万亿个token增加到18万亿个token),并在后训练阶段引入了复杂的监督微调和多阶段强化学习。此外,Qwen2.5系列提供了不同大小的模型选项,包括开放权重和专有模型,以及针对特定任务(如数学、编程)的专用模型。相比现有研究,这种方法不仅提升了模型的通用性和专业性,还提高了性价比。
  • 其它亮点
    该论文展示了Qwen2.5在多个基准测试中的顶级表现,特别是在长文本生成、结构化数据分析和指令跟随方面。旗舰模型Qwen2.5-72B-Instruct尽管参数量远小于Llama-3-405B-Instruct,却能与之竞争。此外,Qwen2.5-Turbo和Qwen2.5-Plus在保持高性能的同时,提供了更好的成本效益。论文中提到的实验设计详尽,涵盖了广泛的评估指标,并且模型已经在实际应用中得到了验证。值得注意的是,Qwen2.5系列模型及其变体已开源,便于进一步研究和应用。
  • 相关研究
    最近在这个领域内的相关研究还包括:1) Llama系列模型,特别是Llama-3-405B-Instruct,在大规模预训练和指令跟随方面表现出色;2) GPT系列,尤其是GPT-4o及其变体,在多模态理解和推理方面取得了进展;3) PaLM等其他大型语言模型也在探索不同的架构和技术以提升性能。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论