- 简介我们确定了当代基于CLIP的模型中的一个重要偏差,我们称之为“单标签偏差”。这种偏差表现为过度关注一个特定的标签(单词),而忽视其他相关标签,这源于CLIP的文本嵌入在图像-文本关系中优先考虑了一个特定的标签。当将文本分解为单个标签时,只有一个标签倾向于与CLIP的图像嵌入具有高相关性,导致标签相关性不平衡。这导致文本中存在的多个标签之间的对齐不均衡。为了解决这个挑战,我们引入了一种新颖的两步微调方法。首先,我们的方法利用标签和它们最近的像素之间的相似性进行评分,从文本中提取与图像相关的标签。其次,我们提出了一种自我蒸馏策略,旨在将提取的标签的组合掩码与文本派生的掩码对齐。这种方法减轻了单标签偏差,从而显著提高了CLIP模型的对齐性,而不需要额外的数据或监督。我们的技术在多标签分类和分割任务中展示了模型无关的改进,超过了依赖外部资源的竞争方法。代码可在https://github.com/shjo-april/TTD获得。
- 图表
- 解决问题本论文致力于解决当使用CLIP模型进行图像-文本关联时,由于模型的文本嵌入偏向于某个特定标签,导致其他标签被忽视而产生的单标签偏差问题。该问题是否是一个新问题?
- 关键思路该论文提出了一种新颖的两步微调方法,旨在从文本中提取与图像相关的标签,通过自我蒸馏策略来对齐提取标签的组合掩码和文本派生掩码,从而减轻单标签偏差问题,显著提高了CLIP模型的对齐性能,而不需要额外的数据或监督。
- 其它亮点该论文的亮点包括:提出了一种解决CLIP模型中单标签偏差问题的新方法;使用两步微调方法来提取与图像相关的标签并对齐掩码;使用自我蒸馏策略来进一步减轻单标签偏差问题;在多标签分类和分割任务中实现了模型无关的改进,超越了依赖于外部资源的竞争方法;代码已在https://github.com/shjo-april/TTD上开源。
- 最近在这个领域中,还有一些相关的研究,例如:《DALL·E: Creating Images from Text》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
沙发等你来抢
去评论
评论
沙发等你来抢