Learning Vision from Models Rivals Learning Vision from Data

简介

我们介绍了SynCLR，这是一种新颖的方法，可以仅从合成图像和合成标题中学习视觉表示，而不需要任何真实数据。我们使用LLMs合成了大量的图像标题数据集，然后使用现成的文本到图像模型生成与每个合成标题对应的多个图像。我们通过对比学习在这些合成图像上进行视觉表示学习，将共享相同标题的图像视为正对。所得到的表示在许多下游任务中具有很好的转移能力，在图像分类任务中与其他通用视觉表示学习器（如CLIP和DINO v2）相比表现良好。此外，在密集预测任务（如语义分割）中，SynCLR的表现显著优于先前的自监督方法，例如在ADE20k上对ViT-B/16的MAE和iBOT的改进达到6.2和4.3 mIoU。
图表
解决问题

本文旨在通过仅使用合成图像和合成标题进行视觉表示学习，而不使用任何真实数据，解决视觉表示学习中的数据稀缺问题。
关键思路

本文提出了SynCLR方法，通过使用语言模型合成图像标题，再使用文本到图像模型生成对应的图像，并通过对比学习在这些合成图像上进行视觉表示学习。这种方法不需要真实数据，但可以在许多下游任务中实现良好的迁移学习效果。
其它亮点

本文的实验结果表明，SynCLR方法在许多下游任务中表现良好，比如在图像分类任务中与其他通用视觉表示学习方法（如CLIP和DINO v2）竞争不相上下，在密集预测任务（如语义分割）中，SynCLR方法的表现也显著优于以前的自监督方法（如MAE和iBOT）。此外，本文提出的方法还可以在没有真实数据的情况下生成大规模的图像数据集。
相关研究

最近在这个领域中，还有一些相关的研究，如《Unsupervised Visual Representation Learning by Context Prediction》、《Learning Representations by Maximizing Mutual Information Across Views》等。

Learning Vision from Models Rivals Learning Vision from Data

评论