本文分享论文『VLMo: Unifified Vision-Language Pre-Training with Mixture-of-Modality-Experts』,由微软提出《VLMo》,用“模态混合专家”进行统一的视觉语言预训练!即将开源!

论文链接:
https://arxiv.org/abs/2111.02358
项目链接:
https://github.com/microsoft/unilm/tree/master/vlmo
在本文中,作者提出了一个统一的视觉语言预训练模型(VLMo),它用一个模块化的Transformer网络联合学习一个双编码器和一个融合编码器。
具体来说,作者引入了模态混合专家(MOME) Transformer,其中每个块包含一个特定于模态的专家池和一个共享的自注意层。由于MOME具有建模的灵活性,预训练好的VLMo可以作为视觉语言分类任务的融合编码器进行微调,或用作图像-文本检索的双编码器。此外,作者提出了一种阶段预训练策略,该策略除了图像-文本对外,还有效利用大规模的图像和文本数据。
实验结果表明,VLMo在各种视觉语言任务上都取得了SOTA的结果,包括VQA和NLVR2。
给定图像-文本对,VLMo通过MOME(Mixture-of-Modality-Experts) Transformer 网络获得仅图像、仅文本和图像-文本对的表示。如上图所示,统一的预训练优化了共享的MOME Transformer的图像-文本对比学习,图像-文本匹配和图像-文本对表示的mask语言建模。在微调过程中,该模型可以作为双编码器进行检索任务,对图像和文本进行分别编码。它还可以作为融合编码器进行微调,以为分类任务建模更深层次的模态交互。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢