Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training

向作者提问

NEW

简介

在视觉语言预训练（VLP）中，最近引入了遮蔽图像建模（MIM）以实现细粒度的跨模态对齐。然而，在大多数现有方法中，MIM的重建目标缺乏高级语义，文本在遮蔽建模中的参与不足。这两个缺点限制了MIM在促进跨模态语义对齐方面的效果。在本研究中，我们提出了一种语义增强的跨模态MIM框架（SemMIM）用于视觉语言表示学习。具体而言，为了为MIM提供更具语义意义的监督，我们提出了一种局部语义增强方法，通过自监督协议学习从全局图像特征中提取高级语义，并通过共享编码空间将其转移到局部补丁编码中。此外，为了在整个MIM过程中实现文本的深度参与，我们提出了一种文本引导的遮蔽策略，并设计了一种有效的方式，在遮蔽建模和重建目标获取中注入文本信息。实验结果验证了我们的方法改善了MIM任务在促进跨模态语义对齐方面的有效性。与具有类似模型大小和数据规模的先前VLP模型相比，我们的SemMIM模型在多个下游视觉语言任务上实现了最先进或有竞争力的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文的问题是在视觉-语言预训练中，如何通过语义增强的交叉模态遮蔽图像建模（SemMIM）来促进跨模态语义对齐？
关键思路

本论文提出了SemMIM框架，通过局部语义增强方法从全局图像特征中提取高层次的语义信息，并将其转移到本地图像块编码中，从而提供更具语义意义的监督信号。同时，通过文本引导的遮蔽策略，在遮蔽建模和重建目标获取过程中注入文本信息，实现了文本的全程深度参与。
其它亮点

本论文的亮点包括：1.提出了SemMIM框架，有效提高了交叉模态遮蔽图像建模的效率；2.使用了多个下游视觉-语言任务进行实验验证，结果表明SemMIM模型在相同规模和数据集下具有最先进的性能；3.论文提供了代码和数据集。
相关研究

在相关研究方面，最近的一些论文包括：1.《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》；2.《VisualBERT: A Simple and Performant Baseline for Vision and Language》；3.《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问