题目:TinyBERT: Distilling BERT for Natural Language Understanding
TinyBERT出自华为诺亚方舟实验室,通过两阶段知识蒸馏,把大型teacher模型(BERT)的大量知识蒸馏到student小模型中。新的模型参数量只有原来的1/7,速度为BERT的9倍,且性能没有明显下降。具体操作首先进行通用蒸馏,接着进行数据增强的任务相关蒸馏。提出的两阶段蒸馏方法对知识蒸馏的研究具有较强的参考价值。方舟实验室后续也在此工作基础上,开源了手机端的轻量部署工作。
论文:https://arxiv.org/abs/1909.10351 代码:https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERT
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢