Generalizing CLIP to Unseen Domain via Text-Guided Diverse Novel Feature Synthesis

简介

视觉语言基础模型（例如CLIP）展现了令人印象深刻的零样本泛化能力，但在下游数据集上微调会导致过度拟合，并且失去其在未知领域的泛化能力。虽然从新领域收集额外数据是可能的，但由于获取带注释数据的挑战通常是不切实际的。为了解决这个问题，我们提出了一种名为LDFS（Language-Guided Diverse Feature Synthesis）的即插即用特征增强方法，用于合成新的领域特征并改进现有的CLIP微调策略。LDFS有三个主要贡献：1）为了合成新领域特征并促进多样性，我们提出了一种基于文本引导特征增强损失的实例条件特征增强策略。2）为了在增强后保持特征质量，我们引入了一种成对正则化器，以在CLIP特征空间内保持增强的特征连贯性。3）我们建议使用随机文本特征增强来减少模态差距，并进一步促进文本引导特征合成的过程。广泛的实验表明，LDFS在不从这些领域收集数据的情况下提高了CLIP在未知领域的泛化能力。代码将公开发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决在下游数据集上进行微调时，CLIP模型的过拟合和泛化能力下降的问题，而不需要收集来自新领域的数据。
关键思路

论文提出了一种名为LDFS（Language-Guided Diverse Feature Synthesis）的插入式特征增强方法，通过文本引导的特征合成来合成新的领域特征，并通过对特征空间的成对正则化来保持特征质量。
其它亮点

论文通过实验表明，LDFS方法可以提高CLIP模型在未见过的领域上的泛化能力，而无需从这些领域收集数据。此外，论文还使用了随机文本特征增强来减少模态差距，并进一步促进文本引导的特征合成过程。代码将公开发布。
相关研究

与此相关的最近研究包括：1）使用对抗训练的领域自适应方法；2）使用对抗生成网络合成新特征的方法。

Generalizing CLIP to Unseen Domain via Text-Guided Diverse Novel Feature Synthesis

提问交流

提问交流