自监督、半监督和有监督全涵盖,四篇论文遍历对比学习的研究进展

自监督学习意思是使用非人工标记数据进行学习。在机器学习中,比较著名的自监督方法就是自然语言处理中的 word2vec。由此可见,与无监督学习不同,自监督中仍然存在标记,只不过,这些标记不是人类参与生成的,而是从输入数据中生成的,通常可以使用启发式算法生成标记。

而在机器视觉领域,自监督学习主要有两类方法,生成类方法(Generative)和区别类方法(Discriminative)。其中,生成类方法通过直接在输入空间中主动生成像素或建立像素模型来完成机器学习任务。区别类方法则是通过优化目标函数来学习潜在空间中的表征(Representation),利用学习到的表征来完成下游任务,比如对比不同的数据。在自监督方法中,区别类方法通过执行前置(pretext)任务训练网络,因此使用的用于训练网络的样本数据和标记数据一般都来自于未标记的数据集。

对比学习也是一种基于潜在空间的区别类自监督学习方法,近年来获得了越来越多的关注。与有监督学习不同,对比学习不需要依赖于大量人工标记处理的样本数据,适用于更多的应用场景。此外,对比学习直接使用数据本身提供监督信息来指导学习。

对比学习的主要任务是从由相似 / 不相似数据对组成的数据集中学习相似 / 不相似的表示。利用这种方法,可以训练机器学习模型来区分相似 / 不相似的图像。对比学习中,机器学习的是一对「孪生网络」,即同时学习针对于正样本(相似数据)的网络和针对于负样本(不相似数据)的网络。对于这种孪生网络,对比学习中引入了损失函数处理成对的数据关系。

机器学习 研究
评论0

可用Markdown格式