微软提出VLMo：用“模态混合专家”进行统一的视觉语言预训练！即将开源！

本文分享论文『VLMo: Unifified Vision-Language Pre-Training with Mixture-of-Modality-Experts』，由微软提出《VLMo》，用“模态混合专家”进行统一的视觉语言预训练！即将开源！

论文链接：

https://arxiv.org/abs/2111.02358

项目链接：

https://github.com/microsoft/unilm/tree/master/vlmo

在本文中，作者提出了一个统一的视觉语言预训练模型(VLMo)，它用一个模块化的Transformer网络联合学习一个双编码器和一个融合编码器。

具体来说，作者引入了模态混合专家(MOME) Transformer，其中每个块包含一个特定于模态的专家池和一个共享的自注意层。由于MOME具有建模的灵活性，预训练好的VLMo可以作为视觉语言分类任务的融合编码器进行微调，或用作图像-文本检索的双编码器。此外，作者提出了一种阶段预训练策略，该策略除了图像-文本对外，还有效利用大规模的图像和文本数据。

实验结果表明，VLMo在各种视觉语言任务上都取得了SOTA的结果，包括VQA和NLVR2。

给定图像-文本对，VLMo通过MOME（Mixture-of-Modality-Experts） Transformer 网络获得仅图像、仅文本和图像-文本对的表示。如上图所示，统一的预训练优化了共享的MOME Transformer的图像-文本对比学习，图像-文本匹配和图像-文本对表示的mask语言建模。在微调过程中，该模型可以作为双编码器进行检索任务，对图像和文本进行分别编码。它还可以作为融合编码器进行微调，以为分类任务建模更深层次的模态交互。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

微软提出VLMo：用“模态混合专家”进行统一的视觉语言预训练！即将开源！

评论列表

评论