Pix2Cap-COCO: Advancing Visual Comprehension via Pixel-Level Captioning

向作者提问

NEW

简介

我们推出了Pix2Cap-COCO，这是首个旨在推进细粒度视觉理解的全景像素级字幕数据集。为了实现这一目标，我们精心设计了一条自动化注释流水线，该流水线提示GPT-4V为图像中的各个对象生成像素对齐、实例特定的字幕，使模型能够学习更细致的对象与其上下文之间的关系。这种方法产生了167,254个详细的字幕，平均每个字幕包含22.94个单词。基于Pix2Cap-COCO，我们引入了一项新任务，即全景分割字幕任务，该任务挑战模型在识别图像中的实例的同时提供详细描述。为了评估这项任务，我们基于X-Decoder设计了一个稳健的基准模型。实验结果表明，Pix2Cap-COCO是一个特别具有挑战性的数据集，因为它要求模型在细粒度视觉理解和详细语言生成方面都表现出色。此外，我们利用Pix2Cap-COCO对大型多模态模型（LMMs）进行监督微调（SFT），以提升其性能。例如，使用Pix2Cap-COCO训练显著提高了GPT4RoI的性能，在Visual Genome数据集上的CIDEr得分提升了+1.4%，ROUGE得分提升了+0.4%，SPICE得分提升了+0.5%，并增强了其在ViP-BENCH上的区域理解能力，整体提升了+5.1%，包括识别准确率显著提高了+11.2%和语言生成质量提高了+22.2%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决细粒度视觉理解与详细语言生成结合的问题，特别是通过创建一个能够同时识别图像中实例并提供详细描述的模型。这是一个相对新颖的问题，因为以往的研究通常侧重于单独处理视觉或语言任务，而较少尝试将两者在如此精细的层次上结合起来。
关键思路

关键思路在于设计了一个自动化注释管道，利用GPT-4V生成像素级对齐、实例特定的字幕，为每个对象提供详细的描述。这不仅使模型能够学习更细致的对象与背景之间的关系，还引入了新的任务——全景分割字幕生成。相比现有研究，这种方法更注重细粒度的理解和描述，推动了多模态学习的进步。
其它亮点

论文的亮点包括：1) 创建了Pix2Cap-COCO数据集，包含167,254个平均长度为22.94词的详细字幕；2) 提出了全景分割字幕生成的新任务，并设计了基于X-Decoder的基准模型；3) 通过监督微调（SFT）增强了大型多模态模型（如GPT4RoI）的表现，特别是在Visual Genome和ViP-BENCH上的显著改进。此外，实验设计严谨，使用了多个数据集进行验证，并且这些工作的开源代码和数据集将促进未来的研究。
相关研究

近期相关研究包括：1) 使用预训练模型进行图像字幕生成的工作，例如CLIPCap和BLIP；2) 探索多模态学习中视觉与语言交互的研究，如VL-BERT和UNIMO；3) 关于细粒度视觉理解的任务，如场景图生成（Scene Graph Generation）。一些相关的论文标题有《Learning to Generate Descriptions for Images with Scene Graphs》、《UNIMO: A Unified-Modal Pre-trained Model for Vision-Language Tasks》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问