2021 年,AI 工程化的未来令人充满期待。
Gartner 将「AI 工程化」列为 2021 年度九大重要战略科技趋势之一。在 Gartner 看来,只有 53% 的项目能够从 AI 原型转化为生产。AI 要成为企业生产力,就必须以工程化的技术来解决模型开发、部署、管理、预测等全链路生命周期管理的问题。
也就是说,如果没有 AI 工程,企业无法将 AI 项目从概念证明和原型转移到全面生产。那么对需要用到 AI 的企业来说,该选择什么样的方式和服务商来获得 AI 工程化能力?
权威市场报告是一份不错的参考。Gartner 最新发布了两份 AI 魔力象限《Magic Quadrant for Data Science and Machine Learning Platforms(数据科学与机器学习平台)》(下称 「DSML 报告」)和《Magic Quadrant for Cloud AI Developer Services(云 AI 开发者服务)》(下称「CAIDS」 报告),对全球厂商进行了年度评估。这两份报告可以看作是 AI 工程化领域的盘点,给予希望选择正确的 DSML 和 CAIDS 解决方案,并提升 AI 生产力的企业以权威的参考。
2021 年初,阿里云机器学习 PAI、达摩院智能计算实验室联合清华大学共同开发了业界最大规模的中文多模态预训练模型 M6。该模型参数规模超千亿,具备超越传统 AI 的文本、图像的理解和生成能力,图像设计效率超越人类,可应用于产品设计、信息检索、机器人对话、文学创作等领域。以图像生成为例,模型可设计包括服饰、鞋类、家具等 30 多个物品类别的图像,最短可以在一分钟内完成作品创作。
千亿多模态预训练模型对当前深度学习框架提出来很多挑战,包括模型计算效率、模型分布式训练性能、数据 IO、模型训练收敛性等。针对这些挑战,PAI 团队自研了 Whale 分布式训练框架,在计算效率、通信效率、显存消耗等多个方面进行了深度优化,从而帮助千亿多模态预训练模型快速迭代训练。
这背后的技术实现是:Whale 分布式训练框架基于 Graph IR,针对数据并行、模型并行、流水并行、混合并行等多种并行模型进行了统一架构设计,并对用户提供并行策略原语,用户在仅仅添加几行 API 调用的情况下就可以实现丰富的分布式并行策略。同时,Whale 实现了包括自动 Gradient Checkpointing、Optimizer 峰值显存优化、通信分组和线程池技术、混合精度、编译优化等优化技术。算法同学不需要修改模型代码,只需添加简单几行的 API 调用就可以快速构建高效的分布式训练任务。
在千亿多模态预训练模型这个任务上,PAI 团队和算法建模同学进行了紧密的合作。模型结构上,借鉴近期 Gshard 和 switch transformer 等工作,M6 模型实现中加入了 Gshard 的 Mixture-of-Experts 设计。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢