达摩院李雅亮：大规模预训练模型的压缩和蒸馏

本次分享的主题为大规模预训练模型的压缩和蒸馏，主要是从自动机器学习的角度，介绍大规模预训练模型的压缩和蒸馏。将介绍阿里巴巴达摩院关于模型压缩的三个连续承接性的工作：

工作1：AdaBERT：Task-AdaptiveBERT Compression with Differentiable Neural Architecture Search. IJCAI’2020.

论文链接：

工作2：L2A：Learning toAugment for Data-Scarce Domain BERT Knowledge Distillation. AAAI’2021.

论文链接：

工作3：Meta-KD：MetaKnowledge Distillation Framework for Language Model Compression across Domains.ACL’2021.

论文链接：

内容中包含的图片若涉及版权问题，请及时与我们联系删除