论文标题:Beyond Self-Supervision: A Simple Yet Effective Network Distillation Alternative to Improve Backbones 论文链接:https://arxiv.org/abs/2103.05959 代码链接:https://github.com/PaddlePaddle/PaddleClas 作者单位:百度 本蒸馏框架可改进现有backbone性能,如将MobileNetV3-large准确率从75.2%显著提高到79%,将ResNet50-D准确率从79.1%显著提高到83%,在下游任务也涨点明显,代码现已开源!
最近,研究工作集中在揭示预训练模型如何在神经网络性能方面产生差异。自监督和半监督学习技术已被社区广泛探索,并被证明在获得强大的预训练模型方面具有巨大潜力。但是,这些模型需要大量的训练费用(即,数亿个图像或训练迭代)。在本文中,我们提出通过现成的预训练大型强大模型中的知识蒸馏来改善现有的基准网络。与现有的知识蒸馏框架不同,现有的知识蒸馏框架要求学生模型必须与教师模型生成的soft标签和人工标注的hard标签保持一致,我们的解决方案仅通过驱动与教师模型一致的学生模型的预测来执行蒸馏。因此,我们的蒸馏设置可以摆脱手动标记的数据,并且可以使用额外的未标记数据进行训练,以充分利用教师模型的能力来更好地学习。我们凭经验发现,这种简单的蒸馏设置非常有效,例如,MobileNetV3-large和ResNet50-D的ImageNet-1k验证集上的top-1准确性可以从75.2%显著提高到79%,从79.1%显著提高到83%。我们还彻底分析了影响蒸馏性能的主要因素以及它们如何产生影响。广泛的下游计算机视觉任务,包括迁移学习,目标检测和语义分割,可以从提炼的预训练模型中显著受益。我们所有的实验都是基于PaddlePaddle代码进行的,PaddleClas中提供了一系列带有ssld后缀的经过改进的预训练模型。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢