LLM-Free Image Captioning Evaluation in Reference-Flexible Settings

2025年12月25日
  • 简介
    我们重点关注基于参考文本和无参考文本两种场景下的图像描述自动评估。现有的基于大语言模型(LLM)的评估指标倾向于偏好由自身生成的描述,因此其评估中立性存疑。大多数不依赖LLM的指标虽无此偏好问题,但性能表现往往不够理想。为解决上述问题,我们提出了Pearl,一种不依赖大语言模型的有监督图像描述评估指标,适用于基于参考和无参考两种评估场景。我们引入了一种新机制,用于学习图像–文本对以及文本–文本对之间的相似性表征。此外,我们构建了一个由人工标注的图像描述评估数据集,该数据集包含来自2,360名标注者的约33.3万条人工评分,覆盖超过7.5万张图像。在Composite、Flickr8K-Expert、Flickr8K-CF、Nebula和FOIL等多个数据集上,无论是在基于参考还是无参考的设置下,Pearl的表现均优于其他现有的非LLM评估指标。我们的项目页面位于 https://pearl.kinsta.page/。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决图像描述(image captioning)自动评估指标中存在的两个关键问题:一是基于大语言模型(LLM)的现有评估指标倾向于偏好自身生成的文本,缺乏中立性;二是非LLM方法虽更中立但性能往往不足。此外,当前缺乏大规模、高质量的人工标注数据集来训练和评估这类指标。该问题在参考式(reference-based)和无参考式(reference-free)两种设置下均存在,且尚未被充分解决。
  • 关键思路
    提出Pearl,一种不依赖大语言模型的监督式图像描述评估指标,能够在有无参考描述的情况下统一工作。其核心创新在于引入了一种新的机制,联合学习图像-描述匹配与描述-描述相似性表示,从而更全面地建模语义一致性。通过完全避开LLM,Pearl避免了生成偏见,同时在性能上超越了现有的非LLM指标。
  • 其它亮点
    构建了一个大规模人工标注数据集,包含约33.3万条人类判断,来自2,360名标注者,覆盖超过7.5万张图像,为训练和评估提供了坚实基础。实验表明,Pearl在Composite、Flickr8K-Expert、Flickr8K-CF、Nebula和FOIL等多个权威数据集上,在参考式与无参考式设置下均优于现有LLM-free指标。代码与项目页面已公开(https://pearl.kinsta.page/),具备良好可复现性和应用潜力。未来可探索将该表示学习机制迁移至其他多模态评估任务。
  • 相关研究
    1. CLIPScore: A Reference-free Evaluation Metric for Image Captioning 2. TIGER: Text-to-Image Generation Evaluation with Reasoning Paths 3. BLIP-2: Zero-shot Image-to-Text Generation and Beyond 4. SPICE: Semantically Equivalent Caption Evaluation 5. CIDEr: Consensus-based Image Description Evaluation
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问