FLEUR: An Explainable Reference-Free Evaluation Metric for Image Captioning Using a Large Multimodal Model

简介

现有的图像字幕评估指标主要通过将字幕与参考字幕进行比较，给出一个单一的数值分数。然而，这些方法并不能解释所得分数。此外，获取参考字幕的成本很高。本文提出了一种名为FLEUR的可解释的无参考评估指标，以引入解释性到图像字幕评估指标中。FLEUR利用一个大型多模态模型，可以在不需要参考字幕的情况下对字幕进行评估，并提供所得分数的解释。我们引入了分数平滑技术，以尽可能接近人类判断，并对用户定义的评分标准具有鲁棒性。FLEUR在各种图像字幕评估基准中与人类判断具有高度相关性，并在无参考评估指标领域的Flickr8k-CF、COMPOSITE和Pascal-50S上达到了最先进的结果。我们的源代码和结果公开在https://github.com/Yebin46/FLEUR上。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出一种可解释的无参考图像字幕评估指标FLEUR，解决现有评估指标无法解释评分的问题，以及获取参考字幕的成本高的问题。
关键思路

利用大型多模态模型，对图像字幕进行评估并解释分数，避免了需要参考字幕的问题。同时，采用平滑技术以尽可能接近人类判断，并且对用户定义的评分标准具有鲁棒性。
其它亮点

实验结果表明，FLEUR在各种图像字幕评估基准上与人类判断具有高度相关性，并在Flickr8k-CF、COMPOSITE和Pascal-50S等评估基准中达到了最先进的结果。同时，作者公开了源代码和实验结果。
相关研究

与该论文相关的研究包括：BLEU、METEOR、ROUGE等评估指标，以及其他参考字幕评估指标的改进方法。

FLEUR: An Explainable Reference-Free Evaluation Metric for Image Captioning Using a Large Multimodal Model

提问交流

提问交流