- 简介目标检测是计算机视觉中的核心任务。多年来,许多模型的发展显著提高了性能。然而,这些传统模型通常受到它们训练的数据和定义类别逻辑的限制。随着语言-视觉模型的兴起,出现了一些新的方法,这些方法不受这些固定类别的限制。尽管这些开放词汇检测模型具有灵活性,但与具有固定类别的传统模型相比,它们的准确性仍然不足。同时,更准确的数据特定模型面临着需要扩展类别或合并不同数据集进行训练的挑战。由于不同的逻辑或冲突的类别定义,后者通常无法组合,这使得在不损害其性能的情况下改进模型变得困难。在本文中,我们介绍了CerberusDet,这是一个具有多头模型的框架,用于处理多个目标检测任务。所提出的模型建立在YOLO架构上,高效地共享来自骨干和颈部组件的视觉特征,同时保持独立的任务头。这种方法使得CerberusDet能够在保持最佳结果的同时表现出非常高的效率。我们在PASCAL VOC数据集和Objects365数据集的其他类别上对模型进行了评估,以展示其能力。CerberusDet在比较少的推理时间内取得了与最先进的数据特定模型相当的结果。训练和推理代码以及模型均可作为开源代码使用(https://github.com/ai-forever/CerberusDet)。
- 图表
- 解决问题论文旨在解决多目标检测中传统模型受限于固定类别和数据的问题,以及开放词汇检测模型准确度不如传统模型的问题。同时,也试图解决在需要扩展类别或合并不同数据集进行训练时所面临的挑战。
- 关键思路论文提出了一种名为CerberusDet的多头模型框架,基于YOLO架构,能够高效地共享视觉特征并保持独立任务头,以处理多个目标检测任务。该方法既能够保持灵活性,又能够提高准确性和效率。
- 其它亮点论文使用PASCAL VOC数据集和Objects365数据集中的附加类别进行评估,证明CerberusDet能够在36%更短的推理时间内取得与特定数据模型相当的结果。同时,论文开源了训练和推理代码以及模型,方便其他研究人员使用和扩展。
- 在该领域中,最近的相关研究包括:《YOLOv4: Optimal Speed and Accuracy of Object Detection》、《EfficientDet: Scalable and Efficient Object Detection》、《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》等。
沙发等你来抢
去评论
评论
沙发等你来抢