DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection

2024年04月14日
  • 简介
    现有的开放词汇物体检测器通常需要用户预定义一组类别,从而显著限制了它们的应用场景。在本文中,我们介绍了DetCLIPv3,这是一个高性能检测器,不仅擅长于开放词汇物体检测,还能为检测到的物体生成分层标签。DetCLIPv3具有三个核心设计:1.多功能模型架构:我们推导出一个强大的开放式检测框架,通过集成标题头进一步增强生成能力。2.高信息密度数据:我们开发了一个自动注释管道,利用视觉大型语言模型来优化大规模图像-文本对的字幕,为训练提供丰富的多粒度对象标签。3.高效的训练策略:我们采用低分辨率输入的预训练阶段,使物体字幕生成器能够从广泛的图像-文本配对数据中高效地学习广泛的视觉概念。随后是微调阶段,利用少量高分辨率样本进一步提高检测性能。通过这些有效的设计,DetCLIPv3展示了卓越的开放词汇检测性能,例如,我们的Swin-T骨干模型在LVIS minival基准测试中取得了显著的47.0零-shot固定AP,比GLIPv2,GroundingDINO和DetCLIPv2分别高出18.0 / 19.6 / 6.6 AP。DetCLIPv3还在VG数据集的密集字幕任务中实现了最先进的19.7 AP,展示了其强大的生成能力。
  • 图表
  • 解决问题
    DetCLIPv3旨在解决现有开放词汇物体检测器受限于预定义类别的问题,提出了一种高性能的检测器,不仅能够进行开放词汇物体检测,还能为检测到的物体生成分层标签。
  • 关键思路
    DetCLIPv3的核心设计包括多功能模型架构、高信息密度数据和高效的训练策略,其中自动注释管道使用视觉大型语言模型来提供丰富的、多粒度的对象标签,预训练阶段使用低分辨率输入,细调阶段使用少量高分辨率样本来进一步提高检测性能。
  • 其它亮点
    DetCLIPv3在LVIS minival基准测试中,Swin-T骨干模型实现了显著的47.0零样本固定AP,比GLIPv2、GroundingDINO和DetCLIPv2分别高出18.0/19.6/6.6 AP,此外,DetCLIPv3还在VG数据集的密集字幕任务中实现了19.7 AP的最新成果。
  • 相关研究
    与此相关的最新研究包括GLIPv2、GroundingDINO和DetCLIPv2。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论