本次分享的主题为大规模预训练模型的压缩和蒸馏,主要是从自动机器学习的角度,介绍大规模预训练模型的压缩和蒸馏。将介绍阿里巴巴达摩院关于模型压缩的三个连续承接性的工作:
工作1:AdaBERT:Task-AdaptiveBERT Compression with Differentiable Neural Architecture Search. IJCAI’2020.
论文链接:
https://arxiv.org/abs/2001.04246
工作2:L2A:Learning toAugment for Data-Scarce Domain BERT Knowledge Distillation. AAAI’2021.
论文链接:
https://arxiv.org/abs/2101.08106
工作3:Meta-KD:MetaKnowledge Distillation Framework for Language Model Compression across Domains.ACL’2021.
论文链接:
https://arxiv.org/abs/2012.01266
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢