FLEUR: An Explainable Reference-Free Evaluation Metric for Image Captioning Using a Large Multimodal Model

2024年06月10日
  • 简介
    现有的图像字幕评估指标主要通过将字幕与参考字幕进行比较,给出一个单一的数值分数。然而,这些方法并不能解释所得分数。此外,获取参考字幕的成本很高。本文提出了一种名为FLEUR的可解释的无参考评估指标,以引入解释性到图像字幕评估指标中。FLEUR利用一个大型多模态模型,可以在不需要参考字幕的情况下对字幕进行评估,并提供所得分数的解释。我们引入了分数平滑技术,以尽可能接近人类判断,并对用户定义的评分标准具有鲁棒性。FLEUR在各种图像字幕评估基准中与人类判断具有高度相关性,并在无参考评估指标领域的Flickr8k-CF、COMPOSITE和Pascal-50S上达到了最先进的结果。我们的源代码和结果公开在https://github.com/Yebin46/FLEUR上。
  • 作者讲解
  • 图表
  • 解决问题
    提出一种可解释的无参考图像字幕评估指标FLEUR,解决现有评估指标无法解释评分的问题,以及获取参考字幕的成本高的问题。
  • 关键思路
    利用大型多模态模型,对图像字幕进行评估并解释分数,避免了需要参考字幕的问题。同时,采用平滑技术以尽可能接近人类判断,并且对用户定义的评分标准具有鲁棒性。
  • 其它亮点
    实验结果表明,FLEUR在各种图像字幕评估基准上与人类判断具有高度相关性,并在Flickr8k-CF、COMPOSITE和Pascal-50S等评估基准中达到了最先进的结果。同时,作者公开了源代码和实验结果。
  • 相关研究
    与该论文相关的研究包括:BLEU、METEOR、ROUGE等评估指标,以及其他参考字幕评估指标的改进方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问