2021年3月,阿里达摩院机器智能实验室AliceMind家族发布了最新训练的270亿参数规模的中文语言理解和生成统一模型--PLUG,但随着预训练模型规模越来越大,如何将大规模的预训练模型在下游任务上微调后直接部署成为了一个亟待解决的难题。因此,达摩院和计算平台PAI团队合作探索了基于稀疏的大规模语言模型落地方案,基于 PLUG 在各个任务上取得了超过同等规模小模型的结果,并在 BERT / Roberta / GPT 上也验证了其有效性。

本文主要包括以下几方面内容:

  • 超大规模语言模型PLUG介绍

  • 相关工作介绍

  • 稀疏训练算法

  • 实验&小结

  • 总结&展望

内容中包含的图片若涉及版权问题,请及时与我们联系删除