- 简介图像描述一直被视为视觉理解中的基本任务。然而,最近由于过时的短字幕基准和不可靠的评估指标,很少有大型视觉语言模型(LVLM)研究讨论模型的图像描述性能。在这项工作中,我们提出通过策划由人类专家注释的高质量评估数据集GPT-4V和Gemini-1.5-Pro来基准详细的图像描述任务。我们还设计了一种更可靠的字幕评估指标,称为CAPTURE(通过提取和耦合核心信息进行字幕评估)。CAPTURE从字幕中提取视觉元素,例如对象、属性和关系,然后通过三个阶段匹配这些元素,以在其他基于规则或基于模型的字幕指标中实现与专家判断的最高一致性。所提出的基准和指标为LVLM的详细图像描述能力提供了可靠的评估。在这个评估的指导下,我们通过一个五阶段的数据构建流程进一步探索释放LVLM的详细字幕能力。我们的流程仅使用给定的LVLM本身和其他开源工具,在循环中没有任何人类或GPT-4V注释。实验表明,所提出的数据构建策略显著提高了具有领先性能的LVLM的模型生成的详细字幕数据质量,并且数据质量可以在自循环范式中进一步提高。所有代码和数据集将公开在https://github.com/foundation-multimodal-models/CAPTURE上。
-
- 图表
- 解决问题本论文旨在解决当前视觉理解中图像描述任务的评估问题,提出了一种可靠的评估指标和基于LVLM的高质量数据构造策略。
- 关键思路论文提出了一种更可靠的图像描述评估指标CAPTURE,通过从描述中提取视觉元素并将其匹配到人类专家注释的数据集中,来评估模型的性能。此外,还提出了一种基于LVLM的高质量数据构造策略,无需人类或GPT-4V注释。
- 其它亮点论文提供了一种可靠的评估方法和高质量的数据构造策略,实验结果表明该方法能够显著提高LVLM的图像描述性能。论文开源了数据集和代码,值得进一步探究。
- 最近的相关研究包括基于LVLM的图像描述、评估指标的改进以及数据增强等。其中,论文提到了GPT-4V和Gemini-1.5-Pro这两个模型。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流