本文论文通过大量实验得到了一个比较反直觉的结论:在知识蒸馏的过程中,差老师也能教出好学生,甚至不需要老师,学生模型进行self-training,模型性能也会有所提升。今天借着这个机会与大家梳理一下知识蒸馏、自蒸馏、标签平滑(label smoothing)方面的内容,相关讨论将主要以这篇论文为中心展开。

论文链接:https://ieeexplore.ieee.org/document/9157663/

内容中包含的图片若涉及版权问题,请及时与我们联系删除