Centered Masking for Language-Image Pre-Training

2024年03月23日
  • 简介
    我们介绍了高斯掩蔽技术(Gaussian masking)用于语言-图像预训练(GLIP)。这是一种新颖、简单和有效的技术,用于在视觉-语言模型的预训练过程中掩蔽图像补丁。GLIP是基于快速语言-图像预训练(FLIP)的,FLIP在训练CLIP模型时随机掩蔽图像补丁。GLIP使用中心掩蔽替换了随机掩蔽,它使用高斯分布,灵感来自于图像中心的重要性。GLIP保留了与FLIP相同的计算节省,同时提高了在各种下游数据集和任务中的性能,我们的实验结果证明了这一点。我们展示了GLIP的好处容易获得,不需要精细调整高斯分布,也适用于包含没有明显中心焦点的图像的数据集。
  • 图表
  • 解决问题
    本论文旨在解决视觉语言模型预训练中的图像掩蔽问题,提出了一种新的高斯掩蔽方法,即Gaussian masking for Language-Image Pre-Training (GLIP),以提高模型的性能。
  • 关键思路
    GLIP方法使用高斯分布进行中心掩蔽,相比于现有的随机掩蔽方法,能够更好地利用图像中心区域的信息,提高预训练模型的性能。
  • 其它亮点
    论文通过实验验证了GLIP方法的有效性,并且证明了GLIP方法易于实现,不需要对高斯分布进行复杂的调整。此外,该方法还适用于没有明显中心焦点的图像数据集。论文使用了多个数据集进行实验,并且开源了代码。
  • 相关研究
    最近的相关研究包括Fast Language-Image Pre-Training (FLIP)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论