YOLO-World: Real-Time Open-Vocabulary Object Detection

2024年01月30日
  • 简介
    YOLO系列检测器已经成为高效实用的工具,但是它们对预定义和训练过的物体类别的依赖限制了它们在开放场景中的适用性。为了解决这个限制,我们引入了YOLO-World,这是一种创新的方法,通过视觉语言建模和在大规模数据集上的预训练,增强了YOLO的开放词汇检测能力。具体地,我们提出了一种新的可重参数化视觉语言路径聚合网络(RepVL-PAN)和区域-文本对比损失,以促进视觉和语言信息之间的交互。我们的方法在零样本情况下以高效的方式优秀地检测了各种物体。在具有挑战性的LVIS数据集上,YOLO-World在V100上以52.0 FPS的速度实现了35.4 AP,在准确性和速度方面均优于许多最先进的方法。此外,经过微调的YOLO-World在几个下游任务中表现出了卓越的性能,包括物体检测和开放词汇实例分割。
  • 图表
  • 解决问题
    论文旨在通过视觉语言建模和大规模数据集的预训练,增强YOLO的开放词汇检测能力,以解决其对预定义和训练对象类别的依赖性限制。论文的问题是如何在开放场景下实现对象检测?
  • 关键思路
    论文提出了一种新的可重参数化视觉语言路径聚合网络(RepVL-PAN)和区域-文本对比损失的方法,以促进视觉和语言信息之间的交互,从而在零样本的情况下高效地检测各种对象。
  • 其它亮点
    论文在具有挑战性的LVIS数据集上取得了35.4 AP和52.0 FPS的优异性能,超过了许多最先进的方法。此外,论文还在几个下游任务中实现了显着的性能,包括对象检测和开放词汇实例分割。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:《Object Detection at 200 Frames per Second》、《End-to-End Object Detection with Transformers》、《Object Detection with Transformers Revisited》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论