- 简介最近,基于端到端的transformer检测器(DETRs)通过整合语言模态在闭集和开词汇物体检测(OVD)任务中表现出了出色的性能。然而,它们对计算的要求阻碍了它们在实时物体检测(OD)场景中的实际应用。本文审查了OVDEval基准测试中两个主要模型OmDet和Grounding-DINO的限制,并引入了OmDet-Turbo。这种新型基于transformer的实时OVD模型具有创新的高效融合头(EFH)模块,旨在缓解OmDet和Grounding-DINO中观察到的瓶颈。值得注意的是,应用TensorRT和语言缓存技术,OmDet-Turbo-Base实现了每秒100.2帧(FPS)的速度。在COCO和LVIS数据集的零样本场景中,OmDet-Turbo的性能几乎与当前最先进的监督模型相当。此外,它在ODinW和OVDEval上建立了新的基准测试,分别具有30.1的AP和26.86的NMS-AP,凸显了OmDet-Turbo在工业应用中的实用性。它在基准数据集上的出色表现和卓越的推理速度使其成为实时物体检测任务的一个有力选择。代码:\url{https://github.com/om-ai-lab/OmDet}。
-
- 图表
- 解决问题论文旨在解决实时目标检测中端到端变换器(DETRs)的计算要求高的问题,提出了一种新的基于变换器的实时开放词汇目标检测模型OmDet-Turbo,旨在提高实时目标检测的实用性。
- 关键思路OmDet-Turbo模型通过创新的高效融合头(EFH)模块来缓解OmDet和Grounding-DINO模型中出现的瓶颈问题,从而实现实时目标检测。该模型在COOC和LVIS数据集的零样本场景中表现出与当前最先进的监督模型相当的性能水平,并在ODinW和OVDEval数据集上创立了新的最先进的基准。
- 其它亮点OmDet-Turbo模型的亮点包括:1. 创新的EFH模块,提高了实时目标检测的效率;2. 在COOC和LVIS数据集的零样本场景中表现出与当前最先进的监督模型相当的性能水平;3. 在ODinW和OVDEval数据集上创立了新的最先进的基准;4. 提供了开源代码。
- 最近在这个领域中,还有一些相关的研究,如:1. End-to-end Object Detection with Transformers;2. Object Detection with Transformers Revisited;3. Deformable DETR: Deformable Transformers for End-to-End Object Detection。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流