TTD: Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias

简介

我们确定了当代基于CLIP的模型中的一个重要偏差，我们称之为“单标签偏差”。这种偏差表现为过度关注一个特定的标签（单词），而忽视其他相关标签，这源于CLIP的文本嵌入在图像-文本关系中优先考虑了一个特定的标签。当将文本分解为单个标签时，只有一个标签倾向于与CLIP的图像嵌入具有高相关性，导致标签相关性不平衡。这导致文本中存在的多个标签之间的对齐不均衡。为了解决这个挑战，我们引入了一种新颖的两步微调方法。首先，我们的方法利用标签和它们最近的像素之间的相似性进行评分，从文本中提取与图像相关的标签。其次，我们提出了一种自我蒸馏策略，旨在将提取的标签的组合掩码与文本派生的掩码对齐。这种方法减轻了单标签偏差，从而显著提高了CLIP模型的对齐性，而不需要额外的数据或监督。我们的技术在多标签分类和分割任务中展示了模型无关的改进，超过了依赖外部资源的竞争方法。代码可在https://github.com/shjo-april/TTD获得。
图表
解决问题

本论文致力于解决当使用CLIP模型进行图像-文本关联时，由于模型的文本嵌入偏向于某个特定标签，导致其他标签被忽视而产生的单标签偏差问题。该问题是否是一个新问题？
关键思路

该论文提出了一种新颖的两步微调方法，旨在从文本中提取与图像相关的标签，通过自我蒸馏策略来对齐提取标签的组合掩码和文本派生掩码，从而减轻单标签偏差问题，显著提高了CLIP模型的对齐性能，而不需要额外的数据或监督。
其它亮点

该论文的亮点包括：提出了一种解决CLIP模型中单标签偏差问题的新方法；使用两步微调方法来提取与图像相关的标签并对齐掩码；使用自我蒸馏策略来进一步减轻单标签偏差问题；在多标签分类和分割任务中实现了模型无关的改进，超越了依赖于外部资源的竞争方法；代码已在https://github.com/shjo-april/TTD上开源。
相关研究

最近在这个领域中，还有一些相关的研究，例如：《DALL·E: Creating Images from Text》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。

TTD: Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias

评论