- 简介多模态大语言模型(MLLMs)得益于大规模、高质量的数据集,在场景理解方面展现出强大的能力。然而,现有的大多数描述生成数据集缺乏视觉实体的定位信息和关系描述。尽管已有少数一些带有定位信息的描述数据集,但它们在高分辨率图像中普遍存在细节描述不足、关系缺失以及缺少大量物体描述的问题。为了填补这一空白,我们提出了 DenseWorld-1M,这是首个面向真实世界的大规模、详细、密集标注的带定位信息描述数据集。 我们设计了一个三阶段的标注流程,包括开放世界的感知、详细的物体描述生成以及密集描述的融合。第一阶段获取实体级别的掩码与标签;第二阶段在第一阶段提供的掩码与标签引导下,生成物体级别的详细描述;最后阶段将物体描述与掩码融合为具有空间与关系信息的密集描述。为了加快标注过程并提升描述质量,我们还开发了两个视觉语言模型:详细区域描述模型和空间描述融合模型。 我们在多个任务上进行了广泛的实验,包括视觉语言理解、视觉定位以及区域描述生成等设置,实验结果充分验证了 DenseWorld-1M 数据集及其标注模型的有效性。
- 图表
- 解决问题现有的视觉-语言数据集缺乏对视觉实体的细粒度定位和关系描述,导致多模态大模型在场景理解、视觉接地和区域描述生成方面受限。这个问题是当前多模态学习领域的一个关键瓶颈。
- 关键思路提出DenseWorld-1M,这是一个大规模、详细标注的密集接地描述数据集,通过三阶段标注流程(开放世界感知、详细对象描述生成、密集描述融合)构建高质量的视觉-语言对齐数据。同时开发了两个基于视觉-语言模型(VLM)的辅助模型来提升标注效率和质量。
- 其它亮点{设计了一个三阶段的标注流程,结合实体掩码、对象级描述与空间关系合并,生成高质量密集描述,"提出了两个高效的VLM辅助模型:Detailed Region Caption模型和Spatial Caption Merging模型",实验验证覆盖多个任务(如视觉-语言理解、视觉接地、区域描述生成),显示DenseWorld-1M显著优于现有数据集,数据集具有现实世界适用性,支持高分辨率图像中的复杂场景建模}
- {"Align before Fuse: Vision-Language Pre-training with Object-Centric Representations (2023)","BLIP-2: Bootstrapping Language-Image Pre-training for Few-Shot Tasks (2023)","Flamingo: a Visual Language Model for Few-Shot Learning (2022)","LAVIS: A Library for Language-Vision Intelligence (2023)","RegionCLIP: Regional Feature based Zero-shot Transfer for General Vision-Language Tasks (2023)"}
沙发等你来抢
去评论
评论
沙发等你来抢