Why are Visually-Grounded Language Models Bad at Image Classification?

2024年05月28日
  • 简介
    图像分类是机器视觉智能最基本的能力之一。在这项工作中,我们使用视觉语言模型(VLMs),如GPT-4V和LLaVA,重新审视图像分类任务。我们发现,尽管现有的专有和公共VLMs通常使用CLIP作为视觉编码器,并且参数更多,但它们在像ImageNet这样的标准图像分类基准测试中明显不如CLIP。为了了解原因,我们探索了关于VLMs中推理算法、训练目标和数据处理的几个假设。我们的分析揭示了主要原因是与数据相关的:图像分类的关键信息被编码在VLM的潜在空间中,但只有足够的训练数据才能有效解码。具体而言,在VLM训练和指令调整过程中类别曝光频率与VLM在这些类别中的表现之间存在强烈的相关性;当用足够的数据进行训练时,VLMs可以匹配最先进的分类模型的准确性。基于这些发现,我们通过将分类重点数据集集成到其训练中来增强VLM,并证明增强的分类性能可以转移到其通用能力,从而在新收集的ImageWikiQA数据集上实现11.8%的提高。
  • 图表
  • 解决问题
    探讨使用视觉语言模型(VLM)进行图像分类任务时的性能问题,发现现有的VLMs在标准的图像分类基准测试中表现不如CLIP模型
  • 关键思路
    VLM的潜在空间中编码了图像分类的关键信息,但只有在有足够训练数据的情况下才能有效解码。通过将分类数据集集成到VLM的训练中,可以提高其分类性能,并将其推广到其一般能力中
  • 其它亮点
    论文发现VLMs在图像分类任务中表现不如CLIP模型的主要原因是数据相关,即VLMs的训练数据不足。通过将分类数据集集成到VLM的训练中,可以提高其分类性能,并将其推广到其一般能力中,实验结果表明,这种增强的分类性能可以转移到其他任务中。
  • 相关研究
    最近的相关研究包括CLIP模型以及使用语言模型进行图像分类的其他工作,例如ViLBERT和LXMERT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论