- 简介我们介绍了一种名为“Gaussian masking for Language-Image Pre-Training (GLIP)”的技术,它是一种新颖、简单且有效的方法,在视觉语言模型的预训练过程中屏蔽图像补丁。GLIP在“Fast Language-Image Pre-Training (FLIP)”的基础上进行了改进,FLIP在训练CLIP模型时随机屏蔽图像补丁。GLIP使用中心屏蔽代替随机屏蔽,使用高斯分布,受到图像中心补丁的重要性的启发。GLIP保留了与FLIP相同的计算节省,并在我们的实验结果中展示了在各种下游数据集和任务中提高性能的效果。我们展示了GLIP的好处容易获得,不需要对高斯进行精细调整,并且适用于包含没有明显中心焦点的图像的数据集。
- 图表
- 解决问题本文旨在解决视觉语言模型预训练中的图像遮挡问题,提出了一种新的遮挡技术GLIP。
- 关键思路GLIP采用高斯分布进行中心遮挡,相比于现有的随机遮挡技术,能够在保证计算效率的同时提高模型性能。
- 其它亮点GLIP在多个下游数据集和任务上均表现出较好的性能,且不需要对高斯分布进行精细调整,易于实现。实验使用了多个常见的视觉语言数据集,并开源了代码。
- 与本文相关的研究包括Fast Language-Image Pre-Training (FLIP)等基于遮挡的预训练技术,以及多模态学习、视觉语言推理等领域的研究。
沙发等你来抢
去评论
评论
沙发等你来抢