- 简介YOLO系列检测器已经成为高效实用的工具,但是它们依赖于预定义和训练好的物体类别,限制了它们在开放场景中的适用性。为了解决这个限制,我们引入了YOLO-World,这是一种创新的方法,通过视觉语言建模和大规模数据集的预训练,增强了YOLO的开放词汇检测能力。具体来说,我们提出了一种新的可重参数化的视觉语言路径聚合网络(RepVL-PAN)和区域-文本对比损失,以促进视觉和语言信息之间的交互。我们的方法在零样本方式下,以高效率检测广泛的物体。在具有挑战性的LVIS数据集上,YOLO-World在V100上以52.0 FPS的速度取得了35.4 AP的成绩,在准确性和速度方面均超过了许多最先进的方法。此外,经过微调的YOLO-World在几个下游任务中表现出了出色的性能,包括物体检测和开放词汇实例分割。
- 图表
- 解决问题论文试图通过引入视觉语言建模和预训练来增强YOLO的开放词汇检测能力,以解决其在开放场景中预定义和训练对象类别的限制。
- 关键思路论文提出了一种新的可重参数化视觉语言路径聚合网络(RepVL-PAN)和区域-文本对比损失的方法,以促进视觉和语言信息之间的交互。
- 其它亮点YOLO-World在零样本情况下以高效的方式检测广泛的对象。在具有挑战性的LVIS数据集上,YOLO-World在V100上实现了35.4 AP和52.0 FPS,超过了许多最先进的方法。此外,经过微调的YOLO-World在几个下游任务中表现出色,包括对象检测和开放词汇实例分割。
- 最近的相关研究包括:《Object Detection at 200 Frames per Second》、《End-to-End Object Detection with Transformers》、《DETR: End-to-End Object Detection with Transformers》等。
沙发等你来抢
去评论
评论
沙发等你来抢