论文链接:https://arxiv.org/pdf/2104.13298.pdf
最先进的知识蒸馏算法发现整合多个模型可以生成更准确的训练监督,但需要以额外的模型参数及明显增加的计算成本为代价。为此,我们提出了一种新颖的“烘焙”算法,有效整合同批次内不同样本间的知识以优化软标签,仅需一个网络即可实现知识整合。“烘焙”在任意网络架构的训练中即插即用,以最少的时间成本实现有效的大幅性能提升,我们在ImageNet及其他多个常见的图像分类基准下进行了算法验证。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢