- 简介人类使用组合性的方式,通过简单的文本描述和链接关系来描述复杂的场景。虽然视觉语言研究旨在开发具有组合理解能力的模型,但现有数据集仍然大多使用纯文本来描述图像。在这项工作中,我们提出了一种新的注释策略,基于图形的字幕(GBC),它使用带有各种类型节点的标记图形结构来描述图像。GBC中的节点是通过使用对象检测和密集字幕工具嵌套递归地创建的,以揭示和描述实体节点,然后在第二阶段进一步链接在一起,通过使用新的节点类型来突出实体之间的组成和关系。由于所有GBC节点都包含纯文本描述,因此GBC保留了自然语言中的灵活性,但也可以在其边缘中编码分层信息。我们展示了GBC可以通过使用现成的多模式LLM和开放词汇检测模型自动产生,并构建了一个新的数据集GBC10M,收集了CC12M数据集中约10M张图像的GBC注释。我们使用GBC10M展示了GBC揭示的节点标题的丰富性,使用CLIP训练进行了测量。我们展示了使用GBC节点的注释,特别是存储在组合和关系节点中的注释,与其他数据集格式相比,在下游模型上产生了显著的性能提升。为了进一步探索GBC提供的机会,我们还提出了一种新的注意机制,它可以利用整个GBC图形,具有鼓舞人心的实验结果,显示了结合图形结构的额外好处。我们的数据集已在\url{https://huggingface.co/graph-based-captions}上发布。
- 图表
- 解决问题本文提出了一种新的注释策略,基于图形的字幕(GBC),旨在描述图像并具有组成理解能力。该方法试图解决现有数据集仍然使用纯文本描述图像的问题,缺乏组成性理解能力的问题。
- 关键思路GBC使用标记的图形结构来描述图像,包括各种类型的节点。该方法使用对象检测和密集字幕工具递归嵌套来创建节点,并使用新类型的节点来突出显示实体之间的组成和关系。GBC节点包含纯文本描述,因此保留了自然语言的灵活性,但也可以在其边缘中编码分层信息。
- 其它亮点本文通过构建一个新的数据集GBC10M,证明了GBC可以使用现成的多模态LLM和开放词汇检测模型自动产生。实验结果表明,使用GBC节点的注释(尤其是存储在组成和关系节点中的注释)与其他数据集格式相比,在下游模型上可以获得显着的性能提升。此外,本文还提出了一种新的注意机制,可以利用整个GBC图形结构,实现了鼓舞人心的实验结果。
- 最近在这个领域中,也有一些相关的研究,如《Visual Relationship Detection with Language Priors》和《Graph-Structured Representations for Visual Question Answering》等。
沙发等你来抢
去评论
评论
沙发等你来抢