Scaling Language-Free Visual Representation Learning

2025年04月01日
  • 简介
    视觉自监督学习(SSL)在多模态场景下,例如视觉问答(VQA),目前的表现不如对比式语言-图像预训练(CLIP)。这种多模态性能差距通常被归因于语言监督引入的语义信息,尽管视觉SSL和CLIP模型通常是在不同的数据上进行训练的。在这项工作中,我们提出了一个问题:「视觉自监督方法是否因为缺乏语言监督,或者是因为训练数据的不同,而落后于CLIP?」 为了回答这个问题,我们在相同的MetaCLIP数据上训练了视觉SSL和CLIP模型,并利用VQA作为一个多样化的测试平台来评估视觉编码器的性能。在这种受控设置下,视觉SSL模型在数据量和模型容量方面表现出比CLIP模型更好的扩展性,即使扩展到70亿参数,视觉SSL的性能也没有饱和。因此,我们观察到视觉SSL方法在广泛的VQA任务和经典视觉基准测试中达到了与CLIP相当的性能水平。这些发现表明,纯视觉自监督学习在大规模情况下可以媲美语言监督的视觉预训练方法,从而为以视觉为中心的表征学习开辟了新的可能性。
  • 图表
  • 解决问题
    该论文试图解决视觉自监督学习(SSL)在多模态任务中表现不如CLIP的问题,并验证视觉SSL是否因缺乏语言监督或训练数据差异而落后于CLIP。这是一个长期存在的问题,但通过统一训练数据来分离变量的研究较少。
  • 关键思路
    论文的关键思路是通过在相同的数据集(MetaCLIP数据)上训练视觉SSL和CLIP模型,控制变量以研究两者性能差距的来源。实验表明,视觉SSL在大规模参数和数据条件下可以超越CLIP,达到类似的性能水平。这一发现挑战了以往认为语言监督不可或缺的观点,提出纯视觉SSL也能实现高效表征学习。
  • 其它亮点
    1. 实验设计严谨,使用VQA作为测试平台评估不同模型的视觉编码器性能;2. 视觉SSL模型在7B参数规模下仍未饱和,表现出更强的扩展性;3. 提供了开源代码和预训练模型,便于后续研究;4. 值得进一步研究的方向包括更高效的视觉SSL算法以及结合语言监督的混合方法。
  • 相关研究
    相关研究包括:1. CLIP系列工作(如 ALIGN、CoCa),探索语言-视觉对齐的多模态表征;2. 纯视觉自监督学习方法(如MoCo、SimCLR、DINO),专注于无标注图像数据的学习;3. MetaCLIP数据集的构建及相关研究,为多模态模型提供大规模训练数据;4. 近期研究如FLAVA和M6,尝试融合视觉和语言任务的联合表征学习。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论