腾讯发布万亿大模型训练方法：最快256卡1天训完万亿NLP大模型

随着AI技术不断发展，AI大模型（又称预训练模型）逐渐成为产业中最火热的技术名词。

预训练模型是指预先训练好，具有相对通用性的“一套算法”，具有“巨量数据、巨量算力、巨量模型”等特性。大模型通过学习样本数据的内在规律和表达层次，进化出接近、超越人类的智能程度，具备分析推理能力，能够识别文字、图像和声音。

今年4月，腾讯首次对外披露混元AI大模型（下文简称“HunYuan”）研发进展。HunYuan集CV（计算机视觉）、NLP（自然语言理解）、多模态理解能力于一体，先后在MSR-VTT，MSVD等五大权威数据集榜单中登顶，实现跨模态领域的大满贯。今年5月，更是CLUE（中文语言理解评测集合）三个榜单同时登顶，一举打破三项纪录。

近日，HunYuan又迎来全新进展，推出国内首个低成本、可落地的NLP万亿大模型，并再次登顶自然语言理解任务榜单CLUE。

如此来势汹汹的HunYuan，是如何在短时间内完成性能迭代？落地到具体的应用场景是如何发挥其效能的呢？

我们一起来看看它背后的技术揭秘。

概述

预训练的提出使得人工智能进入全新的时代，引发了学术界和工业界的研究热潮。

随着算力的发展，模型容量持续提升，模型通用性和泛化能力也更强，研究大模型成为了近两年的趋势。国内外头部科技公司均有布局，发布了若干千亿规模以上的大模型。

然而，面对参数量进一步扩大，业界并没有在高速网络、训练/推理框架、模型算法和落地应用等方面有全面深入的公开性研究。

基于腾讯强大的底层算力和低成本高速网络基础设施，HunYuan依托腾讯领先的太极机器学习平台，推出了HunYuan-NLP 1T大模型并登顶国内最权威的自然语言理解任务榜单CLUE。

该模型作为业界首个可在工业界海量业务场景直接落地应用的万亿NLP大模型，先后在热启动和课程学习、MoE路由算法、模型结构、训练加速等方面研究优化，大幅降低了万亿大模型的训练成本。

用千亿模型热启动，最快仅用256卡在一天内即可完成万亿参数大模型HunYuan-NLP 1T的训练，整体训练成本仅为直接冷启动训练万亿模型的1/8。

此外，业界基于万亿大模型的应用探索极少，对此腾讯研发了业界首个支持万亿级MoE预训练模型应用的分布式推理和模型压缩套件“太极-HCF ToolKit”，实现了无需事先从大模型蒸馏为中小模型进而推理，即可使用低成本的分布式推理组件/服务直接进行原始大模型推理部署，充分发挥了超大预训练模型带来的模型理解和生成能力的跃升。

目前HunYuan-NLP 1T大模型已在腾讯多个核心业务场景落地，并带来了显著的效果提升。

HunYuan协同了腾讯预训练研发力量，旨在打造业界领先的AI预训练大模型和解决方案（如下图），以统一的平台，实现技术复用和业务降本，支持更多的场景和应用。当前HunYuan完整覆盖NLP大模型、CV大模型、多模态大模型、文生图大模型及众多行业/领域任务模型。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

腾讯发布万亿大模型训练方法：最快256卡1天训完万亿NLP大模型

概述

评论列表

评论