- 简介本文介绍了一种新的知识蒸馏方法,用于语义分割任务。与以往依赖于强力训练的教师模型或其他模态提供额外知识的方法不同,我们的方法不需要复杂的教师模型或来自额外传感器的信息。具体而言,在教师模型训练中,我们提出通过加噪声标签并将其合并到输入中来有效提高轻量级教师性能。为了确保教师模型对引入的噪声具有鲁棒性,我们提出了一种双路径一致性训练策略,其中包括两个路径输出之间的距离损失。对于学生模型训练,我们保持与标准蒸馏一致以保持简单。我们的方法不仅提高了知识蒸馏的效果,还增加了选择教师和学生模型的灵活性。为了展示我们的标签辅助蒸馏(LAD)方法的优势,我们在包括Cityscapes、ADE20K、PASCAL-VOC、COCO-Stuff 10K和COCO-Stuff 164K在内的五个具有挑战性的数据集上进行了广泛的实验,使用了五个流行模型:FCN、PSPNet、DeepLabV3、STDC和OCRNet,结果显示了我们方法的有效性和泛化性。我们认为,将标签合并到输入中,如我们所示,将为相关领域提供有价值的见解。代码可在https://github.com/skyshoumeng/Label_Assisted_Distillation找到。
- 图表
- 解决问题本论文旨在提出一种新颖的知识蒸馏方法,用于语义分割任务。该方法不需要复杂的教师模型或来自额外传感器的信息。
- 关键思路该论文提出了一种标签辅助蒸馏(LAD)方法,通过在输入中噪声标签并将其合并到输入中来有效地提高轻量级教师的性能。为了确保教师模型对引入的噪声具有鲁棒性,该论文提出了一种双路径一致性训练策略,其中包括两个路径的输出之间的距离损失。
- 其它亮点该论文使用了五个具有挑战性的数据集进行了广泛的实验,包括Cityscapes,ADE20K,PASCAL-VOC,COCO-Stuff 10K和COCO-Stuff 164K,使用了五个流行的模型:FCN,PSPNet,DeepLabV3,STDC和OCRNet。该方法不仅提高了知识蒸馏的有效性,还增加了选择教师和学生模型的灵活性。该论文的代码可在https://github.com/skyshoumeng/Label_Assisted_Distillation上找到。
- 在这个领域中,最近的相关研究包括“Knowledge Distillation via Instance Relationship Graph”、“Distilling Object Detectors with Fine-grained Feature Imitation”、“Revisiting Knowledge Distillation via Label Smoothing Regularization”等。
沙发等你来抢
去评论
评论
沙发等你来抢