本次分享的主题为大规模预训练模型的压缩和蒸馏,主要是从自动机器学习的角度,介绍大规模预训练模型的压缩和蒸馏。将介绍阿里巴巴达摩院关于模型压缩的三个连续承接性的工作:

工作1:AdaBERT:Task-AdaptiveBERT Compression with Differentiable Neural Architecture Search. IJCAI’2020.

论文链接:

https://arxiv.org/abs/2001.04246

工作2:L2A:Learning toAugment for Data-Scarce Domain BERT Knowledge Distillation. AAAI’2021.

论文链接:

https://arxiv.org/abs/2101.08106

工作3:Meta-KD:MetaKnowledge Distillation Framework for Language Model Compression across Domains.ACL’2021.

论文链接:

https://arxiv.org/abs/2012.01266

内容中包含的图片若涉及版权问题,请及时与我们联系删除