知识蒸馏(KD)是一种广泛使用的技术,它利用大型网络来提高紧凑模型的性能。以前的 KD 方法通常旨在引导学生在表示空间中完全模仿老师的行为。然而,这种一一对应的约束可能导致从教师到学生的知识转移不灵活,尤其是那些模型容量低的知识。

论文链接:https://arxiv.org/pdf/2206.02325.pdf

受 KD 方法最终目标的启发,本文提出了一种新颖的面向评价的 KD 方法 (EKD),用于深度人脸识别,以直接减少训练期间教师和学生模型之间的性能差距。具体来说,采用人脸识别中常用的评价指标,即假阳性率(FPR)和真阳性率(TPR)作为性能指标。根据评估协议,选择导致教师和学生模型之间的 TPR 和 FPR 差异的关键对关系。然后,通过一种新颖的基于秩的损失函数,将学生中的关键关系限制为近似于教师中的相应关系,从而为容量低的学生提供更大的灵活性。

内容中包含的图片若涉及版权问题,请及时与我们联系删除