Toward Automatic Relevance Judgment using Vision--Language Models for Image--Text Retrieval Evaluation

简介

本文评估了视觉-语言模型（VLMs）在相关性判断方面的潜力，包括CLIP、LLaVA和GPT-4V等模型，这些模型已在不同应用中取得了成功。评估采用了一个大规模的零样本\textit{ad hoc}检索任务，该任务旨在为多媒体内容创作提供帮助。初步实验表明：（1）包括开源和闭源视觉指导调整的大型语言模型（LLMs）的LLaVA和GPT-4V在与人类相关性判断相比时达到了显著的Kendall's $\tau \sim 0.4$，超过了CLIPScore指标。（2）虽然CLIPScore更受欢迎，但LLMs对基于CLIP的检索系统的偏见较小。（3）GPT-4V的分数分布与人类判断更接近，达到了约0.08的Cohen's $\kappa$值，优于约-0.096的CLIPScore。这些发现强调了LLM驱动的VLM在提高相关性判断方面的潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在评估视觉语言模型（VLMs）在大规模多媒体内容创建的相关性判断中的能力，包括CLIP、LLaVA和GPT-4V。
关键思路

通过实验发现，LLaVA和GPT-4V在与人类相关性判断的比较中取得了显著的Kendall's tau值，优于CLIPScore指标，其中GPT-4V的得分分布与人类判断更为接近，表现出更好的性能。
其它亮点

实验设计了一个针对多媒体内容创建的零-shot检索任务，使用了开源和闭源的视觉指导调整的大型语言模型，结果表明这些模型在相关性判断方面具有潜力。
相关研究

与本论文相关的研究包括：《CLIP: Connecting Text and Images》、《LLaVA: A Large-scale Dataset and Linguistic Analysis of Image-based Visual Advertisements》、《GPT-4: Generative Pre-training Transformer 4》等。

Toward Automatic Relevance Judgment using Vision--Language Models for Image--Text Retrieval Evaluation

提问交流

提问交流