FlexCap: Generating Rich, Localized, and Flexible Captions in Images

简介

我们介绍了一种多用途的$\textit{灵活字幕}$视觉语言模型（VLM），能够生成长度不同的区域特定描述。该模型名为FlexCap，训练用于为输入的边界框生成长度有条件的字幕，从而控制其输出的信息密度，描述的范围从简洁的对象标签到详细的字幕不等。为了实现这一点，我们从带字幕的图像开始，创建了各种长度的图像区域描述的大规模训练数据集。这种灵活的字幕功能具有几个有价值的应用。首先，FlexCap在Visual Genome数据集上的密集字幕任务中表现出卓越的性能。其次，可以通过采用FlexCap生成本地化描述作为大型语言模型的输入来构建视觉问答（VQA）系统。由此产生的系统在许多VQA数据集上实现了零-shot的最新性能。我们还展示了使用FlexCap的$\textit{先定位再描述}$方法比使用其他VLM的$\textit{先描述再定位}$方法更适合开放式目标检测。我们强调了FlexCap的一种新颖特性，即通过前缀条件提取多样化的视觉信息的能力。最后，我们在图像标注、对象属性识别和视觉对话等任务中定性地展示了FlexCap的广泛适用性。项目网页：https://flex-cap.github.io。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决图像描述中的灵活性问题，提出了一种能够生成不同长度的区域特定描述的VLM模型。同时，该模型还可以应用于VQA和物体检测等多个领域。
关键思路

本文提出的FlexCap模型可以生成长度可控的描述，从简单的物体标签到详细的描述，实现了图像描述的灵活性。同时，通过前缀条件，该模型可以提取多样化的视觉信息。
其它亮点

本文提出的FlexCap模型在Visual Genome数据集上表现出优异的性能，同时应用于VQA任务时可以实现零样本学习。该模型还可以应用于图像标注、物体属性识别和视觉对话等多个领域。作者提供了项目网页和开源代码。
相关研究

与本文相关的研究包括图像描述和VQA领域的其他模型，如Show and Tell、Up-Down、BUTD等。

FlexCap: Generating Rich, Localized, and Flexible Captions in Images

提问交流

提问交流