标题:百度|UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning(语言与视觉一体的模型 ERNIE-UNIMO)

简介:现有的预训练方法要么专注于单模式任务或多模式任务,以及不能有效地适应彼此。他们

只能使用单模式数据(即文本或图片)或有限的多模式数据(即图片-文字对)。在这项工作中,我们提出了一种UNIMOTED-MOdal预训练架构,即UNIMO,它可以有效地适应单模态和多模态了解和生成任务。大利用自由文本语料库和图像集合的规模来提高视觉和文本理解以及跨模式对比学习(CMCL)可以将文本和视觉信息对齐到统一的语义空间中,有图像-文本对语料库相关的图像和文字的帮助丰富的非配对单模态数据,模型能够学习更多通用性表示,通过允许文本知识和视觉知识来增强每种知识其他在统一语义空间中。实验结果表明,UNIMO提高了几个单模态和多模态下游任务的性能。

下载地址:https://arxiv.org/pdf/2012.15409

内容中包含的图片若涉及版权问题,请及时与我们联系删除