本文讨论了关于模型蒸馏(Distilling Knowledge)及关于BERT模型的知识蒸馏,分享针对具体任务时可行的简洁方案,同时在新的视角下探讨了知识蒸馏有效的一些原因,并通过实验进行了相关验证。

内容中包含的图片若涉及版权问题,请及时与我们联系删除