SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients

向作者提问

NEW

简介

在航空影像中进行小物体检测在计算机视觉中面临着重大挑战，因为小尺寸物体固有的数据量很少，并且它们往往会被更大的物体和背景噪声所掩盖。传统方法使用基于Transformer的模型往往面临着来自缺乏专门数据库的限制，这会对它们处理具有不同方向和尺度的物体的性能产生负面影响。这凸显了需要更具适应性和轻量级的模型的需求。为此，本文介绍了两种创新方法，显著增强了小型航空物体的检测和分割能力。首先，我们探索了在新引入的轻量级YOLO v9架构上使用SAHI框架的方法，该架构利用可编程梯度信息（PGI）来减少通常在顺序特征提取过程中遇到的大量信息损失。本文采用了Vision Mamba模型，该模型结合了位置嵌入以促进精确的位置感知视觉理解，并结合了一种新颖的双向状态空间模型（SSM）以进行有效的视觉上下文建模。这种状态空间模型熟练地利用了CNN的线性复杂性和Transformer的全局感受野，使其在遥感图像分类中特别有效。我们的实验结果显示出检测精度和处理效率的显著提高，验证了这些方法在不同航空场景下进行实时小物体检测的适用性。本文还讨论了这些方法如何成为未来航空物体识别技术的基础模型。源代码将在此处公开。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

小目标在航空图像中的检测面临哪些挑战？传统方法的局限性是什么？本文提出了什么新的方法？
关键思路

本文提出了两种创新方法，显著提高了小型航空物体的检测和分割能力。第一种方法是将SAHI框架应用于新引入的轻量级YOLO v9架构，利用可编程梯度信息（PGI）来减少顺序特征提取过程中通常遇到的大量信息丢失。第二种方法是结合位置嵌入和双向状态空间模型（SSM）来进行有效的视觉上下文建模。SSM巧妙地利用了CNN的线性复杂性和Transformer的全局感受野，特别适用于遥感图像分类。
其它亮点

实验结果表明，这些方法在不同的航空场景下实现了检测精度和处理效率的显著提高，验证了这些方法在实时小目标检测方面的适用性。本文还讨论了这些方法如何成为未来航空物体识别技术的基础模型。作者将代码开源。
相关研究

最近的相关研究包括：'EfficientDet: Scalable and Efficient Object Detection'，'YOLOv4: Optimal Speed and Accuracy of Object Detection'，'RetinaNet: Focal Loss for Dense Object Detection' 等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问