Centered Masking for Language-Image Pre-Training

简介

我们介绍了高斯掩蔽技术(Gaussian masking)用于语言-图像预训练(GLIP)。这是一种新颖、简单和有效的技术，用于在视觉-语言模型的预训练过程中掩蔽图像补丁。GLIP是基于快速语言-图像预训练(FLIP)的，FLIP在训练CLIP模型时随机掩蔽图像补丁。GLIP使用中心掩蔽替换了随机掩蔽，它使用高斯分布，灵感来自于图像中心的重要性。GLIP保留了与FLIP相同的计算节省，同时提高了在各种下游数据集和任务中的性能，我们的实验结果证明了这一点。我们展示了GLIP的好处容易获得，不需要精细调整高斯分布，也适用于包含没有明显中心焦点的图像的数据集。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决视觉语言模型预训练中的图像掩蔽问题，提出了一种新的高斯掩蔽方法，即Gaussian masking for Language-Image Pre-Training (GLIP)，以提高模型的性能。
关键思路

GLIP方法使用高斯分布进行中心掩蔽，相比于现有的随机掩蔽方法，能够更好地利用图像中心区域的信息，提高预训练模型的性能。
其它亮点

论文通过实验验证了GLIP方法的有效性，并且证明了GLIP方法易于实现，不需要对高斯分布进行复杂的调整。此外，该方法还适用于没有明显中心焦点的图像数据集。论文使用了多个数据集进行实验，并且开源了代码。
相关研究

最近的相关研究包括Fast Language-Image Pre-Training (FLIP)等。

Centered Masking for Language-Image Pre-Training

提问交流

提问交流