【论文标题】BERT-EMD: Many-to-Many Layer Mapping for BERT Compression with Earth Mover's Distance
【作者团队】Jianquan Li, Xiaokang Liu, Honghong Zhao, Ruifeng Xu, Min Yang, Yaohong Jin
【发表时间】2020/08/13
【代码链接】https://github.com/lxk00/BERT-EMD
【推荐理由】本文发表在EMNLP2020上。预训练语言模型高昂的存储和计算成本,阻碍了模型在资源紧张设备上的部署。本文提出一种基于多层对多层映射的BERT蒸馏方法,允许student的每个中间层向teacher的任意层学习。通过这种方法,模型可以自适应地从不同的教师层学习各种NLP任务。具体的,利用Earth Mover’s Distance(EMD)计算从教师网络向学生网络转化知识所必须的最小累积成本。实现了多对多层映射的有效匹配。在GLUE基准上进行的大量实验表明,模型在精度和模型压缩方面都达到同类压缩方法较好的性能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢