论文地址:https://arxiv.org/pdf/2203.12827.pdf

开源代码:https://github.com/hustvl/SparseInst

摘要

在本文中,我们提出了一个在概念上新颖,高效且完全卷积的框架,用于实时实例分割。以前,大多数实例分割方法在很大程度上依赖对象检测并根据边界框或密集中心执行掩模预测。相比之下,我们提出了一个稀疏的实例激活图作为新对象表示形式,以突出每个前景对象的信息区域。然后,实例级特征是通过根据突出显示的识别和分割的突出显示区域汇总特征获得的。此外,基于双方匹配,实例激活图可以以一对一的样式预测对象,从而避免在后处理中避免非最大最大抑制(NMS)。由于具有实例激活图的简单而有效的设计,SparseInst具有非常快的推理速度,并且在可可基准上获得了40 fps和37.9 AP,这在速度和准确性方面大大优于同行。

主要贡献

在本文中,我们提出了一个新的亮点,以进行实时实例细分的细分范式。我们不用使用框或中心来表示对象,而是利用稀疏的实例激活图(IAM)集来突出显示信息性的对象区域,而cam [49]的激励范围广泛用于弱点的对象本地化。实例激活图是实例感知的加权图,实例级别的特征可以根据突出显示的区域直接汇总。然后,根据实例功能执行识别和分割。图2比较基于区域的,基于中心和基于IAM的表示。相比之下,IAM具有以下优点:(1)它突出显示了歧视实例像素,抑制阻塞性像素,并从概念上避免了错误的实例在基于中心/区域的方法中具有定位问题; (2)IT汇总整个图像中的实例功能,并提供更多上下文; (3)带有激活图的计算实例特征很简单,没有诸如Roi Align之类的额外操作[15]。但是,与以前的工作[15,37,41]不同的使用空间先验(即锚定和中心)来分配目标,实例激活图在输入上进行条件,并且针对不同对象进行任意,并且不可避免地将目标分配给手工 - 制作的培训规则。为了解决这个问题,我们将标签分配制定为例如激活图作为两部分匹配问题,该问题最近在DETR [4]中提出。具体而言,每个目标将被分配给对象预测以及通过匈牙利算法的激活图[31]。在训练过程中,两分匹配有助于实例激活图突出显示单个对象并抑制冗余预测,从而避免了推理期间的NMS。

此外,我们将这种范式具体化并提出了 SparseInst,这是一种非常简单但有效的实例分割方法。 SparseInst 采用单层预测,由提取图像特征的主干、增强单层特征多尺度表示的编码器和计算实例激活图、执行识别和分割的解码器组成,如图所示3. SparseInst 是一个纯卷积框架,独立于检测器。受益于事实:(1)通过实例激活图的稀疏预测; (2) 单层预测; (3) 紧凑的结构; (4) 无需 NMS 或排序的简单后处理,SparseInst 具有极快的推理速度,并在一个 NVIDIA 2080Ti GPU 上以 40.0 FPS 的速度在 MS-COCO test-dev 上实现 37.9 mask AP,优于大多数最先进的实时方法时间实例分割。给定 448 倍输入,SparseInst 以具有竞争力的精度达到 58.5 FPS,这比以前的方法更快。我们希望提出的 SparseInst 可以作为(实时)端到端实例分割的通用框架。

实验

SparseInst建立在检测[42]上,并经过8个GPU训练,每批批次共64张图像。按照[33]的培训时间表,我们采用ADAMW [27]优化器,初始学习率较小,重量衰减为0.0001。所有模型均经过270k迭代训练,学习率分别在210k和250k时除以10。主链用带有冻结的batchnorm层的成像网的重量初始化,而其他模块则是随机初始初始化的。我们在训练中采用随机翻转和比例抖动。图像的较短面从416到640像素随机采样,而较长的一侧则较小或等于864。除非指定,否则我们评估了较短尺寸的速度和准确性640。损耗系数\( \lambda_c \)\( \lambda_{dice} \),λpix,λpix和λss和λss和λss和λss和λss和λsS在经验上分别设置为2.0、2.0、2.0和1.0。我们为每个图像采用n = 100个实例。此外,我们还提供了刺激性[29]实现。

内容中包含的图片若涉及版权问题,请及时与我们联系删除