EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE

2023年08月23日
  • 简介
    本文介绍了一种名为EVE的高效视觉语言基础模型,它是一种统一的多模态Transformer预训练模型,仅通过一个预训练任务进行训练。具体而言,EVE在一个共享的Transformer网络中编码了视觉和语言,并集成了模态感知的稀疏专家混合(MoE)模块,通过选择性地切换到不同的专家来捕捉模态特定信息。为了统一视觉和语言的预训练任务,EVE对图像-文本对进行掩码信号建模,以重构掩码信号,即给定可见信号的图像像素和文本标记。与使用图像-文本对比和图像-文本匹配损失进行预训练的模型相比,这种简单而有效的预训练目标可以将训练加速3.5倍。由于统一架构和预训练任务的结合,EVE易于扩展,可以在更少的资源和更快的训练速度下实现更好的下游性能。尽管它很简单,但EVE在各种视觉语言下游任务中都取得了最先进的性能,包括视觉问答、视觉推理和图像-文本检索。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决视觉-语言模型的可扩展性问题,提出了一种仅通过一个预训练任务来预训练的多模态Transformer模型,称为EVE。
  • 关键思路
    EVE在一个共享的Transformer网络中编码了视觉和语言,并集成了模态感知的稀疏混合专家(MoE)模块,通过选择不同的专家来捕获模态特定的信息。为了统一视觉和语言的预训练任务,EVE对图像-文本对进行了掩码信号建模,以重构掩码信号,即图像像素和文本标记,给定可见信号。
  • 其它亮点
    EVE的预训练任务相比使用Image-Text Contrastive和Image-Text Matching损失的模型,训练速度提高了3.5倍。EVE在多个视觉-语言下游任务上都取得了最先进的性能,包括视觉问答、视觉推理和图像-文本检索。
  • 相关研究
    与该论文相关的研究包括:ViLBERT、LXMERT和UNITER等视觉-语言预训练模型。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问