阿里开源支持10万亿模型的自研分布式训练框架EPL(EasyParallelLibrary)

最近阿里云机器学习PAI平台和达摩院智能计算实验室一起发布“低碳版”巨模型M6-10T，模型参数已经从万亿跃迁到10万亿，规模远超业界此前发布的万亿级模型，成为当前全球最大的AI预训练模型。同时，做到了业内极致的低碳高效，使用512 GPU在10天内即训练出具有可用水平的10万亿模型。相比之前发布的大模型GPT-3，M6实现同等参数规模，能耗仅为其1%。

M6模型训练使用的正是阿里云机器学习PAI平台自研的分布式训练框架EPL(Easy Parallel Library，原名whale)。EPL通过对不同并行化策略进行统一抽象、封装，在一套分布式训练框架中支持多种并行策略，并进行显存、计算、通信等全方位优化来提供易用、高效的分布式训练框架。