- 简介在视觉语言预训练(VLP)中,最近引入了遮蔽图像建模(MIM)以实现细粒度的跨模态对齐。然而,在大多数现有方法中,MIM的重建目标缺乏高级语义,文本在遮蔽建模中的参与不足。这两个缺点限制了MIM在促进跨模态语义对齐方面的效果。在本研究中,我们提出了一种语义增强的跨模态MIM框架(SemMIM)用于视觉语言表示学习。具体而言,为了为MIM提供更具语义意义的监督,我们提出了一种局部语义增强方法,通过自监督协议学习从全局图像特征中提取高级语义,并通过共享编码空间将其转移到局部补丁编码中。此外,为了在整个MIM过程中实现文本的深度参与,我们提出了一种文本引导的遮蔽策略,并设计了一种有效的方式,在遮蔽建模和重建目标获取中注入文本信息。实验结果验证了我们的方法改善了MIM任务在促进跨模态语义对齐方面的有效性。与具有类似模型大小和数据规模的先前VLP模型相比,我们的SemMIM模型在多个下游视觉语言任务上实现了最先进或有竞争力的性能。
-
- 图表
- 解决问题本论文的问题是在视觉-语言预训练中,如何通过语义增强的交叉模态遮蔽图像建模(SemMIM)来促进跨模态语义对齐?
- 关键思路本论文提出了SemMIM框架,通过局部语义增强方法从全局图像特征中提取高层次的语义信息,并将其转移到本地图像块编码中,从而提供更具语义意义的监督信号。同时,通过文本引导的遮蔽策略,在遮蔽建模和重建目标获取过程中注入文本信息,实现了文本的全程深度参与。
- 其它亮点本论文的亮点包括:1.提出了SemMIM框架,有效提高了交叉模态遮蔽图像建模的效率;2.使用了多个下游视觉-语言任务进行实验验证,结果表明SemMIM模型在相同规模和数据集下具有最先进的性能;3.论文提供了代码和数据集。
- 在相关研究方面,最近的一些论文包括:1.《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》;2.《VisualBERT: A Simple and Performant Baseline for Vision and Language》;3.《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流