
论文地址:https://arxiv.org/pdf/2203.13427.pdf
摘要
当前实例分割方法在很大程度上依赖于像素级注释的图像。获取此类通量的图像的巨大成本限制了数据集量表并限制了性能。在本文中,我们正式解决了半佩斯的实例分割,在该实例分段中,使用未标记的图像来提高性能。我们通过分配像素级伪标签来构建半监督实例分割的框架。在此框架下,我们指出,与伪标签相关的嘈杂边界是双边的。我们建议以统一的方式利用和抵抗它们:1)应对嘈杂边界的负面影响,我们通过利用低分辨率特征提出一个耐噪声的面具头。 2)为了增强积极影响,我们引入了一个保留边界的地图,以学习与边界相关区域内的详细信息。我们通过广泛的实验评估我们的方法。它的行为极为巨大,超过监督基线的利润率较大,城市景观超过6%,可可占7%,而BDD100k的基线为4.5%。在CityScapes上,我们的方法仅利用30%标记的图像来实现可比的性能。

主要贡献
我们的主要贡献可以总结如下:
- 我们正式解决了半监督实例分割任务,并构建一个框架来利用未标记的数据,这使我们能够突破完全监督的上限。
- 我们证明了掩膜分辨率和像素级噪声之间的负相关关系,然后通过交织低分辨率和高分辨率特征提出了一种抗噪声头,它可以抵抗边界区域的噪声。
- 我们提出了一个保护边界的图,该图丰富了与边界相关的区域,并同时抑制了狭窄的噪声渗透区域。这会产生更准确的分割边界。

实验
我们评估了Cityscapes数据集[16],COCO36]和BDD100K [56]。 CityScapes为培训集提供了2,975张图像。此外,它由20,000张带有粗体注释的图像组成。可可包括118,287张图像。它还提供123,403张未标记的图像。 BDD100K是一个关于视觉驾驶场景的多元化数据集。 BDD100K的一个子集是像素级注释:大约具有掩码注释和带有框注释的70k图像的7K图像。其中,有67K图像具有框级注释,但没有像素级标签。我们的方法是用Pytorch [42]和MMDetection [10]实现的。除非另有说明,否则我们将Mask RCNN [19]与ResNet50 [20]和FPN [34]一起使用。


内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢