- 简介最近文本生成图像模型的重大进展打开了使用合成图像训练视觉系统的可能性,潜在地克服了大规模收集筛选数据的困难。然而,这些模型在规模上的表现如何还不清楚,因为训练集中添加了更多的合成数据。在本文中,我们研究了最先进的文本生成图像模型生成的合成图像的规模定律,用于监督模型的训练:带有标签监督的图像分类器和带有语言监督的CLIP。我们确定了几个因素,包括文本提示、无分类器指导规模和文本生成图像模型的类型,这些因素显著影响了规模行为。调整这些因素后,我们观察到合成图像在CLIP训练中表现出类似于真实图像的规模趋势,但在训练监督图像分类器时表现显著不足。我们的分析表明,这种表现不足的主要原因是现成的文本生成图像模型无法生成某些概念,这种限制显著地损害了图像分类器的训练。我们的发现还表明,在以下情况下,合成数据的规模化可以特别有效:(1)对于监督问题的真实图像供应有限(例如ImageNet中少于500,000张图像);(2)当评估数据集与训练数据显著不同,表明处于分布之外的情况;或(3)当合成数据与真实图像一起使用时,如在CLIP模型的训练中所示。
- 图表
- 解决问题本文旨在研究使用文本-图像模型生成的合成图像在大规模训练中的表现,以及这些模型的缺陷对图像分类器训练的影响。
- 关键思路通过调整文本提示、无分类器指导规模和文本-图像模型类型等因素,本文发现合成图像的缩放趋势与真实图像相似,但在训练监督图像分类器时表现显著不及真实图像,这是因为现有文本-图像模型无法生成某些概念,从而严重影响了图像分类器的训练。
- 其它亮点本文发现,合成数据的缩放在以下情况下特别有效:(1)对于受监督问题的真实图像供应有限(例如,在ImageNet中少于50万张图像);(2)当评估数据集与训练数据集明显不同时,表明处于分布之外的情况;(3)当合成数据与真实图像一起使用时,可以在CLIP模型的训练中得到证明。
- 最近的相关研究包括:1)《Generative Pretraining Transformer 3》;2)《BigGAN: Large Scale GAN Training for High Fidelity Natural Image Synthesis》;3)《Unsupervised Learning of Visual Features by Contrasting Cluster Assignments》等。
沙发等你来抢
去评论
评论
沙发等你来抢