Benchmarking and Improving Detail Image Caption

2024年05月29日
  • 简介
    图像描述一直被视为视觉理解中的基本任务。然而,最近由于过时的短字幕基准和不可靠的评估指标,很少有大型视觉-语言模型(LVLM)研究讨论模型的图像描述性能。在这项工作中,我们提出通过策划由人类专家注释的高质量评估数据集GPT-4V和Gemini-1.5-Pro来基准详细的图像描述任务。我们还设计了一种更可靠的字幕评估指标,称为CAPTURE(通过提取和耦合核心信息进行字幕评估)。CAPTURE从字幕中提取视觉元素,例如对象、属性和关系,然后通过三个阶段匹配这些元素,使其与专家判断的一致性最高,超过其他基于规则或基于模型的字幕指标。所提出的基准和指标为LVLM的详细图像描述能力提供了可靠的评估。在这个评估的指导下,我们进一步探索通过一个五阶段的数据构造管道释放LVLM的详细字幕能力,我们的管道只使用给定的LVLM本身和其他开源工具,没有任何人类或GPT-4V注释在其中。实验表明,所提出的数据构造策略显著提高了LVLM的领先性能的模型生成的详细字幕数据质量,并且数据质量可以在自循环范式中进一步提高。所有代码和数据集将公开在https://github.com/foundation-multimodal-models/CAPTURE。
  • 图表
  • 解决问题
    本文旨在解决图像描述任务中存在的数据集和评价指标不足的问题,提出了一种基于人工标注的高质量数据集和一种可靠的评价指标CAPTURE。
  • 关键思路
    本文的关键思路是通过人工标注的高质量数据集和CAPTURE评价指标,提高大型视觉-语言模型的图像描述能力,并通过自动化的数据构建流程进一步提高数据质量。
  • 其它亮点
    本文提出的数据集和评价指标能够提高大型视觉-语言模型的图像描述能力,数据构建流程可以自动化生成高质量的描述数据,实验结果表明这种方法可以显著提高模型的性能。
  • 相关研究
    最近的相关研究包括:1.《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》;2.《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论