摘要

用于视频分析的图像分割在智慧城市、医疗保健、计算机视觉和地球科学以及遥感应用等不同的研究领域中发挥着重要作用。在这方面,全景分割是最新的杰出成果之一。后者是语义和实例分割融合的结果。显然,全景分割目前正在研究中,以帮助获得视频监控、人群计数、自动驾驶、医学图像分析等图像场景的更细致的知识,以及对一般场景的更深入理解。为此,本文对现有的全景分割方法进行了第一次全面的综述。因此,基于所采用的算法、应用场景和主要目标的性质,对现有全景技术进行了定义良好的分类。此外,还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来,进行消融研究,以从不同角度了解全景方法。此外,还讨论了适用于全景分割的评估指标,并对现有解决方案的性能进行了比较,以了解最新技术并确定其局限性和优势。最后,阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势,这可以作为未来研究的起点。

总结来说,本文的主要贡献如下:

  • 在介绍了全景分割技术的背景及其显著特征之后,对不同方面的现有工作进行了彻底的分类,例如用于设计全景分割模型的方法、主题技术和应用场景可以处理的图像数据类型;

  • 然后讨论用于验证全景分割模型的公共数据集,并与不同参数进行比较;

  • 描述了评估指标,并对最新技术中确定的最重要的工作进行了各种比较,以显示它们在不同数据集和各种指标下的性能;

  • 在提供关于未来方向的见解之前,将描述当前已解决的挑战和尚未解决的问题,这些未来方向在近期和远期吸引了大量的研究和开发兴趣;

  • 最后得出了相关的结论和建议,以提高图像分割策略的质量。

语义分割

其中进行密集预测的场景的分割。换一种说法;语义分割是用表示像素类别的对应类标记图像的每个像素的操作。此外,语义分割将图像中属于同一类别的不同区域进行分类。尽管语义分割在2007年首次被提出,当时它成为计算机视觉的一部分,但Long等人在2014年首次利用神经网络对自然图像进行端到端分割后,这一重大突破就开始了[37]。

对于图像分割,空间分析是浏览图像区域以确定每个像素的标签的主要过程。基于CNN的方法,如U-Net、SegNet、全连接网络(FCN)和DecovNet,这些是基本架构,在分割质量方面成功地以可接受的精度分割这些区域。然而,对于语义分割,这是一种复杂的分割,特别是当图像复杂时,这些基本网络的性能不足以标记图像中的大量对象。例如,SegNet网络严重依赖于编码器-解码器架构。相反,其他网络在编码器端具有类似的架构,并且仅在架构的解码器部分略有不同。为了处理信息丢失的问题,最近提出了利用深度卷积特征提取的语义分割方法,该方法使用多尺度特征聚合[38,39,40,41]或端到端结构化预测视角[42,43,44,45,46]。

实例分割

实例分割是基于目标检测任务的增量研究工作。目标(事物)检测任务不仅检测目标,还提供检测目标周围的边界框以指示位置[47]。图像分割是目标检测的另一个步骤,它在精细级别上分割场景中的目标,并为分割的场景中的所有目标提供标签。进化顺序可分为图像分类、目标检测、目标定位、语义分割和实例分割。分割效率指的是计算时间和成本,而准确度指的是以鲁棒性正确分割目标的能力。因此,在准确性和效率之间始终存在权衡。

对于任何计算机视觉方法,可区分特征的选择都至关重要,因为特征是决定方法性能的关键因素。特征抽取器,如SIFT和SURF,最初是在AI引入之前使用的。接下来,特征抽取慢慢地从人工选择的方法发展到完全自动化的DL架构。用于目标检测的一些流行DL网络是VGGNet[48]、ResNet[49,50]、DenseNet[51,52,53]、GoogLeNet Inception[59,60]。在此背景下,CNN架构已被用作某些方法中提取特征的主干,这些特征可用于进一步处理。此外,实例分割必须克服几个问题,包括几何变换、检测较小的目标、遮挡、噪声和图像退化。因此,用于实例分割的广泛使用的架构包括掩码RCNN[61]、RCNN[62、63]、PANet[64]和YOLACT[65、66]。

通常,使用基于区域的两阶段方法[67、68、69、39、70、71]或统一的单阶段方法[72]实现实例分割。如前所述,在效率和准确性之间始终存在折衷。两阶段方法具有更好的精度,而单阶段方法具有更高的效率。与语义分割不同,每个目标都与其他目标不同,即使它们属于同一类。

全景分割

全景分割是实例和语义分割的融合,旨在区分场景中的事物。事实上,全景分割有两类,即thing和stuff。Stuff是指不可数的区域,如天空、人行道和地面。而thing包括所有可数的物体,例如汽车、人等。与实例分割和语义方法不同,在全景方法中,通过给每一个目标赋予不同的颜色,使其与其他目标区分开来,从而对thing进行分割,全景分割允许不同场景组件的良好可视化,并且可以作为包括各种场景部分的检测、定位和分类的全局技术来呈现。这生成了一个全面和实际的场景理解。

全景分割技术能够描述图像的场景内容并允许其深入理解,这有助于显著简化分析,提高性能,并为许多计算机视觉任务提供解决方案。我们可以在这些任务中找到视频监控、自动驾驶、医学图像分析、图像场景解析、地球科学和遥感。全景分割通过实现对特定目标的分析而无需检查图像的整个区域,从而允许这些应用,这减少了计算时间,最大限度地减少了对某些目标的漏检或识别,并确定了图像或视频中不同区域的边缘显著性。为了调查全景分割的发展,关于对things和stuff实现的相关任务,图2中描述了从二值分割和目标检测开始到全景分割结束的图像分割的时间线演变。通常,用于执行每项任务的流行网络也被突出显示。