- 简介目标检测和分割在计算机视觉应用中被广泛使用,然而传统的模型如YOLO系列,虽然高效且准确,但受限于预定义的类别,在开放场景中的适应性受到限制。最近的开放集方法通过利用文本提示、视觉提示或无提示范式来克服这一问题,但由于高计算需求或部署复杂性,通常会在性能和效率之间做出妥协。在这项工作中,我们引入了YOLOE,它在一个高效的单一模型中整合了检测和分割功能,并支持多种开放提示机制,实现了实时识别任何物体。 对于文本提示,我们提出了可重新参数化的区域-文本对齐(RepRTA)策略。该策略通过一个可重新参数化的轻量级辅助网络优化预训练的文本嵌入,并在零推理和迁移开销的情况下增强视觉与文本的对齐。对于视觉提示,我们提出了语义激活视觉提示编码器(SAVPE)。它采用分离的语义和激活分支,以最小的复杂度带来改进的视觉嵌入和更高的准确性。对于无提示场景,我们引入了懒惰区域提示对比(LRPC)策略。该策略利用内置的大词汇表和专门的嵌入来识别所有对象,避免了昂贵的语言模型依赖。 广泛的实验表明,YOLOE在零样本性能和迁移能力方面表现出色,同时具有高效的推理能力和较低的训练成本。值得注意的是,在LVIS数据集上,YOLOE-v8-S仅需三分之一的训练成本和1.4倍的推理加速,就超越了YOLO-Worldv2-S 3.5个AP值。在迁移到COCO数据集时,YOLOE-v8-L相比封闭集YOLOv8-L在几乎四分之一的训练时间内,分别获得了0.6 AP^b 和 0.4 AP^m 的提升。代码和模型可在 https://github.com/THU-MIG/yoloe 获取。
-
- 图表
- 解决问题该论文试图解决传统目标检测和分割模型(如YOLO系列)在开放场景中由于预定义类别限制而导致的适应性不足问题。此外,现有的开放集方法虽然通过文本提示、视觉提示或无提示范式来克服这一限制,但往往在性能和效率之间做出妥协,导致高计算需求或部署复杂度。
- 关键思路YOLOE的关键思路是整合了检测和分割功能,并在单一高效模型中支持多种开放提示机制(文本提示、视觉提示和无提示场景)。对于文本提示,提出了重新参数化的区域-文本对齐(RepRTA)策略;对于视觉提示,引入了语义激活的视觉提示编码器(SAVPE);对于无提示场景,则采用了懒惰区域提示对比(LRPC)策略。这些创新使得YOLOE能够在保持高效推理的同时实现零样本性能和良好的迁移能力。
- 其它亮点1. YOLOE展示了卓越的零样本性能和迁移能力,同时保持了高推理效率和低训练成本。 2. 在LVIS数据集上,YOLOE-v8-S以3倍少的训练成本和1.4倍的推理加速超越了YOLO-Worldv2-S。 3. 在COCO数据集上的迁移实验中,YOLOE-v8-L相比封闭集YOLOv8-L实现了显著的AP增益,且训练时间减少了近4倍。 4. 论文提供了开源代码和模型,便于后续研究和应用开发。 5. 值得继续深入研究的方向包括进一步优化不同提示机制的融合,以及探索更多应用场景。
- 最近在这个领域中,相关的研究还包括: 1. CLIP (Contrastive Language–Image Pre-training),通过大规模图像-文本对进行预训练,实现了强大的零样本分类能力。 2. DETR (End-to-End Object Detection with Transformers),将Transformer应用于目标检测,提高了检测精度。 3. DINO (DEtection TRansformer with object Queries),改进了DETR的收敛速度和性能。 4. Open-Vocabulary Object Detection via Vision-and-Language Knowledge Distillation,探讨了通过视觉与语言知识蒸馏实现开放词汇表的目标检测。 5. Segment Anything Model (SAM),专注于通用的分割任务,能够根据给定提示生成高质量的分割掩码。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流