摘要
小目标与远距离目标的检测一直是目标检测领域面临的难点问题,但这又是检测在监控、安防等领域进行应用的关键要求。在上述应用场景中,小目标、远距离目标仅体现为图像中少量的稀疏像素,其视觉表观缺乏足够的纹理细节和场景上下文,使得传统的检测算法难以区分。因此,本文提出了Slicing Aided Hyper Inference Framework这一开源框架,该框架在Visdrone、xView等航拍目标检测数据集上可以提升已有检测算法6.8%、5.1%、5.3%的平均精确度。通过进一步微调,上述提升性能甚至可以达到12.7%、13.4%、14.5%。作者进一步证明该框架可以应用于Detectron2、MMDetection、VOLOv5等多个经典检测模型。目前,这一框架稳居PaperwithCode平台流行研究的前列,在GitHub平台上点赞数近千并以每小时1.67点赞的速度增加。
论文链:https://paperswithcode.com/paper/slicing-aided-hyper-inference-and-fine-tuning
代码链接:https://github.com/obss/sahi
动机
目标检测一直是计算机视觉领域的重要研究领域,在实际应用中也得到了广泛的应用。在安防、监控、遥感等方面具有不可替代的重要地位。近年来,随着深度学习的发展,Faster R-CNN、RetinaNet等深度模型在传统目标检测任务上取得了突破性的结果,然而小目标、远距离目标的检测仍是该领域的难点问题。
技术路线
为了提升小目标、远距离目标的检测精度,如图2所示,作者提出了一种在微调、推理阶段将图像进行剪切的通用框架。该框架主要包含两个步骤:1)将输入图像剪切为具有重叠的图像块,而每一个图像块的剪切大小、范围都是需要模型进行自适应学习的;2)在检测结果的推理阶段,原始查询图像同样分解为重叠的像素块,且检测推理需要在每个像素块上单独进行。
性能对比
上述框架分别被应用于现有模型FCOS、VarifocalNet、TOOD进行试验验证,数据集包括VisDrone2019-Detection、xView两个通过遥感、卫星拍摄到的图像数据集上。
量化对比结果如下:
可视化对比分析如下:
总结
检测小目标和远程目标检测是监控应用中的一个主要挑战。这些物体由图像中少量的像素表示,缺乏足够的细节,使得传统的检测器难以检测。本文提出了一个名为切片辅助超推理(SAHI)的开源框架。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢