标题:智源、清华|WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models(WuDaoMM:用于预训练模型的大规模多模态数据集)

简介:与特定领域模型相比,视觉语言预训练模型(VLPM)在下游任务上表现出优异的性能,具有快速的微调过程。例如,ERNIE-ViL、Oscar 和 UNIMO 作为统一的变换器堆栈架构,用大量的图文配对数据进行预训练,在图文参考(IR&TR)、视觉问题等下游任务上,取得了回答(VQA)和图像字幕(IC)的显著效果。在训练阶段,VLPM总是被提供多个公共数据集的组合,以满足大规模训练数据的需求。但是,由于数据分布的不均匀性,使用多个数据集的混合进行模型训练可能会出现问题。结果表明,WuDaoMM 基础可以用作VLPM的有效数据集,用于理解和生成任务。

下载地址:https://github.com/BAAI-WuDao/WuDaoMM/

论文地址:https://arxiv.org/pdf/2203.11480

内容中包含的图片若涉及版权问题,请及时与我们联系删除