TTD: Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias

2024年03月30日
  • 简介
    我们确定了当代基于CLIP的模型中的一个重要偏差,我们称之为“单标签偏差”。这种偏差表现为过度关注一个特定的标签(单词),而忽视其他相关标签,这源于CLIP的文本嵌入在图像-文本关系中优先考虑了一个特定的标签。当将文本分解为单个标签时,只有一个标签倾向于与CLIP的图像嵌入具有高相关性,导致标签相关性不平衡。这导致文本中存在的多个标签之间的对齐不均衡。为了解决这个挑战,我们引入了一种新颖的两步微调方法。首先,我们的方法利用标签和它们最近的像素之间的相似性进行评分,从文本中提取与图像相关的标签。其次,我们提出了一种自我蒸馏策略,旨在将提取的标签的组合掩码与文本派生的掩码对齐。这种方法减轻了单标签偏差,从而显著提高了CLIP模型的对齐性,而不需要额外的数据或监督。我们的技术在多标签分类和分割任务中展示了模型无关的改进,超过了依赖外部资源的竞争方法。代码可在https://github.com/shjo-april/TTD获得。
  • 图表
  • 解决问题
    本论文致力于解决当使用CLIP模型进行图像-文本关联时,由于模型的文本嵌入偏向于某个特定标签,导致其他标签被忽视而产生的单标签偏差问题。该问题是否是一个新问题?
  • 关键思路
    该论文提出了一种新颖的两步微调方法,旨在从文本中提取与图像相关的标签,通过自我蒸馏策略来对齐提取标签的组合掩码和文本派生掩码,从而减轻单标签偏差问题,显著提高了CLIP模型的对齐性能,而不需要额外的数据或监督。
  • 其它亮点
    该论文的亮点包括:提出了一种解决CLIP模型中单标签偏差问题的新方法;使用两步微调方法来提取与图像相关的标签并对齐掩码;使用自我蒸馏策略来进一步减轻单标签偏差问题;在多标签分类和分割任务中实现了模型无关的改进,超越了依赖于外部资源的竞争方法;代码已在https://github.com/shjo-april/TTD上开源。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:《DALL·E: Creating Images from Text》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论