多模态预训练数据集｜Conceptual 12M:大规模图文预训练数据集用于识别长尾视觉概念

【论文】Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts 【作者】Soravit Changpinyo, Piyush Sharma, Nan Ding, Radu Soricut，来自Google Research 【时间】17 Feb 2021，CVPR 本文发布了大型数据集Conceptual 12M (CC12M)，1200万个图像文本数据对用于vision-and-language模型的训练。

作者对该数据集进行了分析，并对其在多个下游任务中与之前常用的CC3M数据集进行了比较。新的数据集重点强调了长尾视觉识别，定量和定性的结果也清楚地说明了新的数据集增大了用于视觉和语言任务的训练前数据的好处。

内容中包含的图片若涉及版权问题，请及时与我们联系删除