Anchor-based Robust Finetuning of Vision-Language Models

2024年04月09日
  • 简介
    我们的目标是微调视觉语言模型,同时不损害其对于分布外(OOD)的泛化能力。我们解决了两种类型的OOD泛化,即i)领域转移,如自然图像到素描图像,和ii)零样本能力,即能够识别未包含在微调数据中的类别。可以说,微调后OOD泛化能力的减弱源于微调目标过于简化,只提供类别信息,例如“[CLASS]的照片”。这与CLIP的预训练过程不同,CLIP预训练时有丰富的文本监督信息和丰富的语义信息。因此,我们提出使用具有丰富语义信息的辅助监督来补偿微调过程,以保留OOD泛化能力。具体地,我们的方法详细说明了两种类型的锚点,包括i)文本补偿锚点,它使用来自微调集的图像,但从预训练的字幕生成器中丰富文本监督,ii)图像-文本对锚点,它从与CLIP预训练数据类似的数据集中检索,并与原始CLIP文本关联,具有丰富的语义信息。这些锚点被用作辅助语义信息,以维护CLIP的原始特征空间,从而保留OOD泛化能力。全面的实验表明,我们的方法在类内性能上类似于传统微调,同时在领域转移和零样本学习基准测试中取得了新的最先进结果。
  • 图表
  • 解决问题
    本论文旨在通过辅助监督信息来保持视觉-语言模型的OOD泛化能力,解决领域转移和零样本问题。
  • 关键思路
    通过使用丰富的语义信息作为辅助监督信息,来保持CLIP模型的原始特征空间,从而保留其OOD泛化能力。
  • 其它亮点
    论文提出了两种类型的辅助监督信息:文本补偿锚点和图像-文本对锚点,并在领域转移和零样本学习基准测试中取得了最新的最优结果。
  • 相关研究
    最近的相关研究包括:《CLIP: Learning Transferable Visual Models From Natural Language Supervision》、《Vision-Language Pre-training with Contrastive Cross-Modal Tasks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论