5 月 18 日,在华为生态大会 2021「昇腾万里 共赢智能新时代」分论坛上,鹏城实验室超大模型「鹏程. 盘古」重磅亮相。这是业界首个全开源 2000 亿参数中文预训练语言模型。
该模型由鹏城实验室联合相关技术团队开发,首次基于「鹏城云脑 Ⅱ」和全场景 AI 计算框架 MindSpore 的自动混合并行模式实现在 2048 卡算力集群上的大规模分布式训练,是国产全栈式 AI 基础设施第一次支持 2000 亿级超大规模语言模型训练,探索并验证了国产 E 级智算平台在软硬件协同优化、大规模分布式并行训练等核心关键技术上的可行性。
在模型性能方面,鹏程. 盘古大模型性能全球领先,16 个下游任务中性能指标优于业界 SOTA 模型,其中零样本学习任务 11 个任务领先、单样本学习任务 12 个任务领先、小样本学习任务 13 个任务领先。在应用方面,鹏程. 盘古支持丰富的应用场景,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出。
能够取得如此优异的成绩,「大数据」、「大算力」固然功不可没,但如果没有卓越的软硬件协同优化、大规模分布式并行训练等技术做支撑,即使拿到足够的算力和数据,我们也训练不出鹏程. 盘古这类大模型。在这篇文章中,我们就来谈谈鹏程. 盘古背后的技术以及这类大模型的价值所在。
感兴趣的可以继续戳原文。

内容中包含的图片若涉及版权问题,请及时与我们联系删除