- 简介我们的目标是微调视觉语言模型,同时不损害其对于分布外(OOD)的泛化能力。我们解决了两种类型的OOD泛化,即i)领域转移,如自然图像到素描图像,和ii)零样本能力,即能够识别未包含在微调数据中的类别。可以说,微调后OOD泛化能力的减弱源于微调目标过于简化,只提供类别信息,例如“[CLASS]的照片”。这与CLIP的预训练过程不同,CLIP预训练时有丰富的文本监督信息和丰富的语义信息。因此,我们提出使用具有丰富语义信息的辅助监督来补偿微调过程,以保留OOD泛化能力。具体地,我们的方法详细说明了两种类型的锚点,包括i)文本补偿锚点,它使用来自微调集的图像,但从预训练的字幕生成器中丰富文本监督,ii)图像-文本对锚点,它从与CLIP预训练数据类似的数据集中检索,并与原始CLIP文本关联,具有丰富的语义信息。这些锚点被用作辅助语义信息,以维护CLIP的原始特征空间,从而保留OOD泛化能力。全面的实验表明,我们的方法在类内性能上类似于传统微调,同时在领域转移和零样本学习基准测试中取得了新的最先进结果。
- 图表
- 解决问题本论文旨在通过辅助监督信息来保持视觉-语言模型的OOD泛化能力,解决领域转移和零样本问题。
- 关键思路通过使用丰富的语义信息作为辅助监督信息,来保持CLIP模型的原始特征空间,从而保留其OOD泛化能力。
- 其它亮点论文提出了两种类型的辅助监督信息:文本补偿锚点和图像-文本对锚点,并在领域转移和零样本学习基准测试中取得了最新的最优结果。
- 最近的相关研究包括:《CLIP: Learning Transferable Visual Models From Natural Language Supervision》、《Vision-Language Pre-training with Contrastive Cross-Modal Tasks》等。
沙发等你来抢
去评论
评论
沙发等你来抢