- 简介在规模庞大的视觉-语言数据集中,严重的数据不平衡现象是自然存在的。尽管如此,我们发现在此基础上进行的CLIP预训练相比于监督学习表现出显著的数据平衡鲁棒性,并且在学习可推广的表示方面表现出重要的效果。为了探究这一发现背后的原因,我们进行了受控实验以研究各种潜在因素,并揭示了CLIP的伪任务形成了动态分类问题,其中训练集中只有一部分类别。这隔离了主导类别的偏见,隐含地平衡了学习信号。此外,CLIP的鲁棒性和可区分性随着更具描述性的语言监督、更大规模的数据和更广泛的开放世界概念而改善,这些是监督学习无法访问的。我们的研究不仅揭示了CLIP在数据不平衡情况下推广性的机制,还为研究社区提供了可转移的见解。这些发现在监督学习和自监督学习中得到了验证,使得在不平衡数据上训练的模型能够在各种识别任务上达到CLIP级别的性能。代码可在以下网址获得:https://github.com/CVMI-Lab/clip-beyond-tail。
- 图表
- 解决问题研究如何在存在数据不平衡的情况下,让模型学习到可推广的视觉和语言表示。
- 关键思路通过控制实验,发现CLIP预训练模型的预训练任务形成了一个动态分类问题,只有训练集中的一个子集类别存在,从而隐式地平衡了学习信号,从而使CLIP对数据不平衡具有鲁棒性和泛化能力。
- 其它亮点实验结果表明,CLIP的鲁棒性和可区分性随着更具描述性的语言监督、更大规模的数据和更广泛的开放世界概念的使用而改善,这些都是监督学习无法达到的。研究不仅揭示了CLIP在数据不平衡情况下泛化能力的机制,还为研究社区提供了可转移的见解。
- 最近的相关研究包括:《Vision-Language Pre-training with Contrastive Cross-Modal Tasks》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
沙发等你来抢
去评论
评论
沙发等你来抢