African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification

简介

最近的大规模视觉-语言模型（LVLM）在许多图像理解和推理任务上展示了令人印象深刻的能力。然而，精细化物体分类任务（例如区分动物物种）尚未得到充分的探究，尽管它在下游任务中很重要。我们通过从现有的物体分类数据集创建FOCI（Fine-grained Object Classification）来填补这一评估空白，它是一个难度较高的多项选择细粒度对象分类基准，其中包含了来自ImageNet-21k的四个领域特定子集，FOCI通过多项选择避免了将分类作为开放式问答任务而带来的歧义答案，同时通过使用CLIP模型挖掘负标签来保留分类难度。我们在FOCI上对12个公共LVLM进行基准测试，并表明它测试了已建立的图像理解和推理基准测试之外的一种补充技能。关键是，CLIP模型表现出比LVLM更好得多的性能。由于LVLM的图像编码器来自这些CLIP模型，这表明编码器和LLM之间在细粒度对象区分方面存在不足之处，并需要使用更细粒度的注释数据进行（预）训练。我们在\url{https://github.com/gregor-ge/FOCI-Benchmark}上发布了我们的代码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图填补细粒度对象分类在大规模视觉语言模型（LVLMs）评估中的空白，并创建了一个困难的多项选择基准测试FOCI来测试LVLMs的性能。
关键思路

本文提出了一个新的评估基准FOCI，通过挖掘负标签来保留分类难度，测试了12个公共LVLMs的性能，并展示了CLIP模型相比LVLMs具有更好的性能。
其它亮点

本文的亮点包括创建了一个新的评估基准FOCI，测试了12个公共LVLMs的性能，并发现CLIP模型相比LVLMs具有更好的性能。作者还公开了代码。
相关研究

最近的相关研究包括：1）CLIP模型的发展和应用；2）大规模视觉语言模型的发展和应用；3）细粒度对象分类的相关研究。

African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification

提问交流

提问交流