Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training

2024年03月01日
  • 简介
    在视觉语言预训练(VLP)中,最近引入了遮蔽图像建模(MIM)以实现细粒度的跨模态对齐。然而,在大多数现有方法中,MIM的重建目标缺乏高级语义,文本在遮蔽建模中的参与不足。这两个缺点限制了MIM在促进跨模态语义对齐方面的效果。在本研究中,我们提出了一种语义增强的跨模态MIM框架(SemMIM)用于视觉语言表示学习。具体而言,为了为MIM提供更具语义意义的监督,我们提出了一种局部语义增强方法,通过自监督协议学习从全局图像特征中提取高级语义,并通过共享编码空间将其转移到局部补丁编码中。此外,为了在整个MIM过程中实现文本的深度参与,我们提出了一种文本引导的遮蔽策略,并设计了一种有效的方式,在遮蔽建模和重建目标获取中注入文本信息。实验结果验证了我们的方法改善了MIM任务在促进跨模态语义对齐方面的有效性。与具有类似模型大小和数据规模的先前VLP模型相比,我们的SemMIM模型在多个下游视觉语言任务上实现了最先进或有竞争力的性能。
  • 作者讲解
  • 图表
  • 解决问题
    本论文的问题是在视觉-语言预训练中,如何通过语义增强的交叉模态遮蔽图像建模(SemMIM)来促进跨模态语义对齐?
  • 关键思路
    本论文提出了SemMIM框架,通过局部语义增强方法从全局图像特征中提取高层次的语义信息,并将其转移到本地图像块编码中,从而提供更具语义意义的监督信号。同时,通过文本引导的遮蔽策略,在遮蔽建模和重建目标获取过程中注入文本信息,实现了文本的全程深度参与。
  • 其它亮点
    本论文的亮点包括:1.提出了SemMIM框架,有效提高了交叉模态遮蔽图像建模的效率;2.使用了多个下游视觉-语言任务进行实验验证,结果表明SemMIM模型在相同规模和数据集下具有最先进的性能;3.论文提供了代码和数据集。
  • 相关研究
    在相关研究方面,最近的一些论文包括:1.《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》;2.《VisualBERT: A Simple and Performant Baseline for Vision and Language》;3.《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问