Bridge the Modality and Capacity Gaps in Vision-Language Model Selection

2024年03月20日
  • 简介
    Vision Language Models(VLM)通过将图像与文本类别名称配对,在零样本图像分类方面表现出色。预训练VLM的不断增加提高了识别特定任务的合适VLM的可能性。因此,一种有前途的零样本图像分类策略是从VLM Zoo中选择最适合的预训练VLM,仅依靠目标数据集的文本数据而没有访问该数据集的图像。在本文中,我们分析了评估这种仅基于语言的VLM选择中VLM能力的两个固有挑战: “模态差距”- VLM在两种不同模态下的嵌入差异,使得文本不是图像的可靠替代品;以及“能力差距”- VLM的整体排名与其在目标数据集中的排名之间的差距,阻碍了从其总体表现直接预测模型的数据集特定性能。我们提出了VLM选择与间隙桥接(SWAB)来缓解这两个差距的负面影响。SWAB首先采用最优传输来捕捉开源数据集与目标数据集之间的相关性,生成传输矩阵。然后使用该矩阵将来自开源数据集的VLM的有用统计数据转移至目标数据集,以弥合这两个差距,增强VLM的能力估计和VLM选择。在各种VLM和图像分类数据集上的实验验证了SWAB的有效性。
  • 图表
  • 解决问题
    本文试图解决利用文本数据选择最适合的预训练视觉语言模型(VLM)进行零样本图像分类的问题。同时,作者指出了两个困难:模态差距和能力差距。
  • 关键思路
    本文提出了一种名为SWAB的方法,通过最优传输来捕捉开源数据集和目标数据集之间的相关性,并使用这个传输矩阵来将有用的VLM统计信息从开源数据集传输到目标数据集,从而缩小模态差距和能力差距,提高VLM选择的能力估计。
  • 其它亮点
    本文的实验结果表明SWAB方法的有效性。作者还对各种VLM和图像分类数据集进行了实验,探讨了SWAB方法的适用性。此外,作者还提供了开源代码。
  • 相关研究
    在相关研究方面,本文提到了一些预训练VLM的相关工作,如ViT和CLIP。此外,还有一些相关研究,如《Zero-shot Learning - A Comprehensive Evaluation of the Good, the Bad and the Ugly》和《Zero-Shot Learning - A Survey of the State of the Art》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论