CVPR 2022｜嘈杂的边界：半监督实例分割的柠檬还是柠檬水？

论文地址：https://arxiv.org/pdf/2203.13427.pdf

摘要

当前实例分割方法在很大程度上依赖于像素级注释的图像。获取此类通量的图像的巨大成本限制了数据集量表并限制了性能。在本文中，我们正式解决了半佩斯的实例分割，在该实例分段中，使用未标记的图像来提高性能。我们通过分配像素级伪标签来构建半监督实例分割的框架。在此框架下，我们指出，与伪标签相关的嘈杂边界是双边的。我们建议以统一的方式利用和抵抗它们：1）应对嘈杂边界的负面影响，我们通过利用低分辨率特征提出一个耐噪声的面具头。 2）为了增强积极影响，我们引入了一个保留边界的地图，以学习与边界相关区域内的详细信息。我们通过广泛的实验评估我们的方法。它的行为极为巨大，超过监督基线的利润率较大，城市景观超过6％，可可占7％，而BDD100k的基线为4.5％。在CityScapes上，我们的方法仅利用30％标记的图像来实现可比的性能。

主要贡献

我们的主要贡献可以总结如下：

我们正式解决了半监督实例分割任务，并构建一个框架来利用未标记的数据，这使我们能够突破完全监督的上限。
我们证明了掩膜分辨率和像素级噪声之间的负相关关系，然后通过交织低分辨率和高分辨率特征提出了一种抗噪声头，它可以抵抗边界区域的噪声。
我们提出了一个保护边界的图，该图丰富了与边界相关的区域，并同时抑制了狭窄的噪声渗透区域。这会产生更准确的分割边界。

实验

我们评估了Cityscapes数据集[16]，COCO36]和BDD100K [56]。 CityScapes为培训集提供了2,975张图像。此外，它由20,000张带有粗体注释的图像组成。可可包括118,287张图像。它还提供123,403张未标记的图像。 BDD100K是一个关于视觉驾驶场景的多元化数据集。 BDD100K的一个子集是像素级注释：大约具有掩码注释和带有框注释的70k图像的7K图像。其中，有67K图像具有框级注释，但没有像素级标签。我们的方法是用Pytorch [42]和MMDetection [10]实现的。除非另有说明，否则我们将Mask RCNN [19]与ResNet50 [20]和FPN [34]一起使用。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

CVPR 2022｜嘈杂的边界：半监督实例分割的柠檬还是柠檬水？

摘要

主要贡献

实验

评论列表

评论