Toward Automatic Relevance Judgment using Vision--Language Models for Image--Text Retrieval Evaluation

2024年08月02日
  • 简介
    本文评估了视觉-语言模型(VLMs)在相关性判断方面的潜力,包括CLIP、LLaVA和GPT-4V等模型,这些模型已在不同应用中取得了成功。评估采用了一个大规模的零样本\textit{ad hoc}检索任务,该任务旨在为多媒体内容创作提供帮助。初步实验表明:(1)包括开源和闭源视觉指导调整的大型语言模型(LLMs)的LLaVA和GPT-4V在与人类相关性判断相比时达到了显著的Kendall's $\tau \sim 0.4$,超过了CLIPScore指标。(2)虽然CLIPScore更受欢迎,但LLMs对基于CLIP的检索系统的偏见较小。(3)GPT-4V的分数分布与人类判断更接近,达到了约0.08的Cohen's $\kappa$值,优于约-0.096的CLIPScore。这些发现强调了LLM驱动的VLM在提高相关性判断方面的潜力。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在评估视觉语言模型(VLMs)在大规模多媒体内容创建的相关性判断中的能力,包括CLIP、LLaVA和GPT-4V。
  • 关键思路
    通过实验发现,LLaVA和GPT-4V在与人类相关性判断的比较中取得了显著的Kendall's tau值,优于CLIPScore指标,其中GPT-4V的得分分布与人类判断更为接近,表现出更好的性能。
  • 其它亮点
    实验设计了一个针对多媒体内容创建的零-shot检索任务,使用了开源和闭源的视觉指导调整的大型语言模型,结果表明这些模型在相关性判断方面具有潜力。
  • 相关研究
    与本论文相关的研究包括:《CLIP: Connecting Text and Images》、《LLaVA: A Large-scale Dataset and Linguistic Analysis of Image-based Visual Advertisements》、《GPT-4: Generative Pre-training Transformer 4》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问