Learning to Project for Cross-Task Knowledge Distillation

简介

传统的知识蒸馏（KD）依赖于在目标任务上接受过训练的熟练教师，但并非总是可用。在这种情况下，可以使用跨任务蒸馏，使任何在不同任务上接受过训练的教师模型得以使用。然而，许多知识蒸馏方法在应用于这种跨任务设置时被证明是无效的。为了解决这个限制，我们提出了一种简单的修改：使用反向投影。我们展示了这种替代标准投影仪的方法是有效的，因为它学会了忽略可能降低学生表现的任何任务特定特征。我们发现，这种简单的修改足以将许多知识蒸馏方法扩展到跨任务设置中，即使教师和学生任务可能非常不同。这样做可以在没有额外成本的情况下，使跨任务设置相比传统投影获得高达1.9%的改进。即使在没有任何学习的知识可供转移的情况下，我们的方法在各种任务上（如深度估计、图像翻译和语义分割）使用随机初始化的教师仍然可以获得显著的性能提升（高达7%）。为了提供概念和分析上的见解，我们展示了使用反向投影可以将蒸馏损失分解为知识转移和谱规则化两个部分。通过这个分析，我们还能够提出一种新的规则化损失，使得无需教师的蒸馏成为可能，在没有额外的训练成本的情况下在ImageNet上实现了高达8.57%的性能提升。

图表

解决问题

如何在没有针对目标任务的教师模型的情况下，进行跨任务知识蒸馏？

关键思路

使用反投影的方法替代标准投影，使得知识蒸馏的损失能够分解为知识转移和谱规则化两个部分，从而在不需要教师模型的情况下进行知识蒸馏。

其它亮点

通过使用反投影，论文在跨任务知识蒸馏中取得了显著的性能提升，即使使用随机初始化的教师模型也能得到8.57%的性能提升。实验使用了多个任务的数据集，并且提出了一种新的正则化损失。

Learning to Project for Cross-Task Knowledge Distillation

评论