
论文标题:
Revisiting the Transferability of Supervised Pretraining: an MLP Perspective
作者单位:
浙江大学,悉尼大学,商汤,上海交大清源研究院
收录会议:
CVPR 2022
论文链接:
https://arxiv.org/abs/2112.00496
开篇定性,作为一篇学术宣传稿,不需要受制于固定的格式,因此我们希望和大家讨论的更加自由放飞一些,分享有趣的现象和背后的洞见(insight),而不是简单的堆砌各种实验结果和“由此可得”。
迁移能力(transferability)的定义很简单,模型在相同数据下,如何在各种下游任务表现的更好。形象的来说,就是门派内有着大量的弟子(pretraining methods),基于门派内共同的修炼资源(pretraining data),修炼着不同的功法(with different supervision),以期让自己在未来在不同类型的江湖比武(various downstream tasks, various dataset)上都能拔得头筹。而我们想要讲述的是,一个资质平凡的监督学习(supervised learning method,SL),修着最普通的功法(the cross-entropy loss),通过“自我审视”(revisit)和取长补短,总结经验教训(theoretical analysis),在各种迁移任务上成功击败早已声名鹊起的后起之秀(unsupervised learning methods, USL),最终脱颖而出的故事。
相比于之前的对监督学习和无监督学习的分析,这次针对迁移性能的 revisit,从监督学习和无监督学习在训练时结构上的差异出发,指出了之前被大家忽视的 MLP projector 是其中的关键因素。
我们从“回看监督学习/无监督学习的差距分析”,“新视角下的监督学习/无监督学习迁移能力差距”,“SL-MLP:MLP 带来的有趣现象”,“对实验现象的理论分析”,“SL-MLP 的迁移性能”五个章节,讲一下如何挖掘监督学习的迁移能力,以及怎样的特征才更适应下游任务。
回看监督学习/无监督学习的差距分析
首先,明确我们的目标:找到监督学习(SL)在迁移能力上真正劣于无监督学习(USL)的原因。只有找到监督学习真正的短板,才能针对性补强,从而完成逆袭。
围绕这一目标,现有的分析和实践性质的文章,主要从两个角度出发:(1)无监督放弃了标签中的语义信息 [1,2],避免模型在训练过程中对标签的过拟合,从而更好保留了 instance-specific 的特征,使其对下游任务的适应性更好。(2)Contrastive loss 的设计让模型学到了对下游任务更友好的中低层的特征 [3,4]。
但是,监督学习方案和现有无监督学习方案在结构上的不同,却一直被大家忽视。从 SimCLR [5] 开始,在 encoder 后引入一个 multi-layer perceptron(MLP) projector 的方案,就被无监督学习广泛的用于提升当前数据集的表征能力。MLP 带来的提升是那么的简单有效,以至于我们当前在设计对比式的无监督学习方案时,都会默认的加入 MLP。从而导致在对监督学习和无监督学习迁移性比较上出现了结构上的 unfair,得到了不够准确的结论。比如,在提升监督学习迁移能力的方案中,SupContrast [4] 在把 contrastive loss 引入监督学习的同时,MLP projector 也被一并引入,但在 [3] 的进一步分析比较中,却单一地把性能提升归功于 contrastive loss 设计上的优势。
而实际上,通过这次的 revist,我们发现之前被大家忽视的 MLP projector 才是其中的关键因素。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢