EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE

简介

本文介绍了一种名为EVE的高效视觉语言基础模型，它是一种统一的多模态Transformer预训练模型，仅通过一个预训练任务进行训练。具体而言，EVE在一个共享的Transformer网络中编码了视觉和语言，并集成了模态感知的稀疏专家混合（MoE）模块，通过选择性地切换到不同的专家来捕捉模态特定信息。为了统一视觉和语言的预训练任务，EVE对图像-文本对进行掩码信号建模，以重构掩码信号，即给定可见信号的图像像素和文本标记。与使用图像-文本对比和图像-文本匹配损失进行预训练的模型相比，这种简单而有效的预训练目标可以将训练加速3.5倍。由于统一架构和预训练任务的结合，EVE易于扩展，可以在更少的资源和更快的训练速度下实现更好的下游性能。尽管它很简单，但EVE在各种视觉语言下游任务中都取得了最先进的性能，包括视觉问答、视觉推理和图像-文本检索。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决视觉-语言模型的可扩展性问题，提出了一种仅通过一个预训练任务来预训练的多模态Transformer模型，称为EVE。
关键思路

EVE在一个共享的Transformer网络中编码了视觉和语言，并集成了模态感知的稀疏混合专家（MoE）模块，通过选择不同的专家来捕获模态特定的信息。为了统一视觉和语言的预训练任务，EVE对图像-文本对进行了掩码信号建模，以重构掩码信号，即图像像素和文本标记，给定可见信号。
其它亮点

EVE的预训练任务相比使用Image-Text Contrastive和Image-Text Matching损失的模型，训练速度提高了3.5倍。EVE在多个视觉-语言下游任务上都取得了最先进的性能，包括视觉问答、视觉推理和图像-文本检索。
相关研究

与该论文相关的研究包括：ViLBERT、LXMERT和UNITER等视觉-语言预训练模型。

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE

提问交流

提问交流