AdaDistill: Adaptive Knowledge Distillation for Deep Face Recognition

简介

本文介绍了一种适应性知识蒸馏方法AdaDistill，用于深度人脸识别，旨在通过从高性能教师模型中提取知识来提高紧凑型学生模型的性能。AdaDistill将知识蒸馏的概念嵌入到softmax损失中，通过使用带有来自教师的蒸馏类中心的边际惩罚softmax损失来训练学生。我们提出在训练的早期阶段蒸馏较简单的知识，而在训练的后期阶段蒸馏较复杂的知识，以考虑紧凑型学生模型的相对低容量。这种蒸馏知识的相对调整是通过学生在训练迭代中的学习能力的进展来控制的，无需调整任何超参数。广泛的实验和消融研究表明，AdaDistill可以增强学生的辨别学习能力，并在多个具有挑战性的基准测试中展示出优于各种最先进的竞争对手的表现，例如IJB-B，IJB-C和ICCV2021-MFR。
图表
解决问题

提高紧凑型学生模型的性能，通过从高性能教师模型中提取知识进行蒸馏
关键思路

提出了一种自适应的知识蒸馏方法AdaDistill，通过在softmax损失中嵌入知识蒸馏概念，使用教师的蒸馏类中心训练学生，通过学生的学习能力进步相对调整蒸馏知识的复杂度，无需调整超参数
其它亮点

实验结果表明，AdaDistill可以增强学生的判别学习能力，在多个具有挑战性的基准测试中优于各种最先进的竞争对手
相关研究

最近在这个领域中，还有一些相关研究，如Knowledge Distillation via Instance Relationship Graph、Deep Mutual Learning、Adaptive Attentional Knowledge Distillation等

AdaDistill: Adaptive Knowledge Distillation for Deep Face Recognition

评论