- 简介尽管CLIP是许多视觉语言应用中的基础模型,但它存在严重的文本定位偏差。这种偏差导致CLIP模型“模仿”图像中嵌入的视觉文本,而忽略了真实的视觉语义。我们发现,在最流行的图像-文本数据集LAION-2B中,标题也密集地模仿(拼写)图像中嵌入的文本。我们的分析显示,大约\textbf{50\%}的图像嵌入了视觉文本内容,而\textbf{90\%}的标题或多或少地模仿了视觉文本。基于这样的观察,我们彻底检查了不同版本的CLIP模型,并验证了视觉文本是衡量这些模型中LAION风格图像-文本相似性的主要因素。为了检查这些模仿标题是否塑造了文本定位偏差,我们使用不同的模仿标题导向标准筛选出的LAION子集训练了一系列CLIP模型。我们展示了使用模仿标题进行训练容易塑造这种偏差,但会损害CLIP模型中预期的视觉语言表示学习。这表明,迫切需要重新审视CLIP类模型的设计或基于CLIP分数过滤构建的现有图像-文本数据集筛选流程。
- 图表
- 解决问题研究发现,CLIP模型存在文本定位偏差,导致模型过度关注图像中的文本,忽略真实的视觉语义。本文试图探究这种偏差的原因,并提出相应的解决方案。
- 关键思路本文通过分析图像-文本数据集LAION-2B,发现其标注文本与图像中的文本高度重合,导致CLIP模型过度关注图像中的文本。为解决这一问题,本文提出了一种基于多重标注的数据集构建方法,并在此基础上重新训练了CLIP模型。
- 其它亮点本文的亮点包括:1. 发现CLIP模型存在的文本定位偏差;2. 提出一种新的数据集构建方法,解决数据集中文本与图像的重合问题;3. 重新训练CLIP模型,证明该方法有效。实验使用的数据集包括LAION-2B和COCO-Text,代码已开源。
- 与本文相关的研究包括:1. ViLBERT:一种基于视觉语言交互的BERT模型;2. LXMERT:一种融合语言和视觉信息的Transformer模型;3. UNITER:一种基于Transformer的跨模态预训练模型。
沙发等你来抢
去评论
评论
沙发等你来抢