Benchmarking and Improving Detail Image Caption

2024年05月29日
  • 简介
    图像字幕生成长期以来一直被视为视觉理解中的基本任务。然而,最近,由于过时的短字幕基准和不可靠的评估指标,很少有大型视觉语言模型(LVLM)研究讨论模型的图像字幕生成性能。在本文中,我们提出通过策划由人类专家注释的高质量评估数据集GPT-4V和Gemini-1.5-Pro来基准详细的图像字幕任务。我们还设计了一种更可靠的字幕评估度量CAPTURE(通过提取和耦合核心信息进行字幕评估)。CAPTURE从字幕中提取视觉元素,例如对象、属性和关系,然后通过三个阶段匹配这些元素,实现与专家判断的最高一致性,超过其他基于规则或基于模型的字幕指标。所提出的基准和度量为LVLM的详细图像字幕生成能力提供了可靠的评估。在这个评估的指导下,我们通过一个五阶段的数据构建流程进一步探索发挥LVLM的详细字幕生成能力,通过 LVLM 本身和其他开源工具,不需要任何人类或 GPT-4V 的注释。实验表明,所提出的数据构建策略显著提高了具有领先性能的 LVLM 生成的详细字幕数据的质量,并且数据质量可以在自循环范例中进一步提高。所有代码和数据集将公开在 https://github.com/foundation-multimodal-models/CAPTURE。
  • 图表
  • 解决问题
    本文旨在解决当前大型视觉语言模型(LVLM)的图像描述性能评估存在的问题,即基于过时的短描述基准和不可靠的评估指标。作者提出了一种详细图像描述任务的基准评估方法,并设计了一种更可靠的图像描述评估指标CAPTURE。
  • 关键思路
    本文的关键思路是通过人工专家注释高质量的评估数据集,提出了一种可靠的图像描述评估指标CAPTURE。此外,通过使用LVLM本身和其他开源工具构建数据管道,作者成功地合成了高质量的详细图像描述数据,并展示了这种数据合成策略的有效性。
  • 其它亮点
    本文的亮点包括提出了一种可靠的图像描述评估指标CAPTURE,并使用该指标进行了详细的LVLM图像描述性能评估;通过使用LVLM本身和其他开源工具构建数据管道,作者成功地合成了高质量的详细图像描述数据,并展示了这种数据合成策略的有效性;作者提供了代码和数据集的开源。
  • 相关研究
    最近的相关研究包括使用不同的评估指标和基准数据集进行LVLM图像描述性能评估的研究,如COCO和Flickr30k等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论