CVPR 2022｜MLP才是无监督学习比监督学习迁移性能好的关键因素

论文标题：

Revisiting the Transferability of Supervised Pretraining: an MLP Perspective

作者单位：

浙江大学，悉尼大学，商汤，上海交大清源研究院

收录会议：

CVPR 2022

论文链接：

https://arxiv.org/abs/2112.00496

开篇定性，作为一篇学术宣传稿，不需要受制于固定的格式，因此我们希望和大家讨论的更加自由放飞一些，分享有趣的现象和背后的洞见（insight），而不是简单的堆砌各种实验结果和“由此可得”。

迁移能力（transferability）的定义很简单，模型在相同数据下，如何在各种下游任务表现的更好。形象的来说，就是门派内有着大量的弟子（pretraining methods），基于门派内共同的修炼资源（pretraining data），修炼着不同的功法（with different supervision）,以期让自己在未来在不同类型的江湖比武（various downstream tasks, various dataset）上都能拔得头筹。而我们想要讲述的是，一个资质平凡的监督学习（supervised learning method，SL），修着最普通的功法（the cross-entropy loss），通过“自我审视”（revisit）和取长补短，总结经验教训（theoretical analysis），在各种迁移任务上成功击败早已声名鹊起的后起之秀（unsupervised learning methods， USL），最终脱颖而出的故事。

相比于之前的对监督学习和无监督学习的分析，这次针对迁移性能的 revisit，从监督学习和无监督学习在训练时结构上的差异出发，指出了之前被大家忽视的 MLP projector 是其中的关键因素。

我们从“回看监督学习/无监督学习的差距分析”，“新视角下的监督学习/无监督学习迁移能力差距”，“SL-MLP：MLP 带来的有趣现象”，“对实验现象的理论分析”，“SL-MLP 的迁移性能”五个章节，讲一下如何挖掘监督学习的迁移能力，以及怎样的特征才更适应下游任务。

回看监督学习/无监督学习的差距分析

首先，明确我们的目标：找到监督学习（SL）在迁移能力上真正劣于无监督学习（USL）的原因。只有找到监督学习真正的短板，才能针对性补强，从而完成逆袭。

围绕这一目标，现有的分析和实践性质的文章，主要从两个角度出发：（1）无监督放弃了标签中的语义信息 [1,2]，避免模型在训练过程中对标签的过拟合，从而更好保留了 instance-specific 的特征，使其对下游任务的适应性更好。（2）Contrastive loss 的设计让模型学到了对下游任务更友好的中低层的特征 [3,4]。

但是，监督学习方案和现有无监督学习方案在结构上的不同，却一直被大家忽视。从 SimCLR [5] 开始，在 encoder 后引入一个 multi-layer perceptron（MLP） projector 的方案，就被无监督学习广泛的用于提升当前数据集的表征能力。MLP 带来的提升是那么的简单有效，以至于我们当前在设计对比式的无监督学习方案时，都会默认的加入 MLP。从而导致在对监督学习和无监督学习迁移性比较上出现了结构上的 unfair，得到了不够准确的结论。比如，在提升监督学习迁移能力的方案中，SupContrast [4] 在把 contrastive loss 引入监督学习的同时，MLP projector 也被一并引入，但在 [3] 的进一步分析比较中，却单一地把性能提升归功于 contrastive loss 设计上的优势。

而实际上，通过这次的 revist，我们发现之前被大家忽视的 MLP projector 才是其中的关键因素。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

CVPR 2022｜MLP才是无监督学习比监督学习迁移性能好的关键因素

回看监督学习/无监督学习的差距分析

评论列表

评论