- 简介本文解决了一个新颖而具有挑战性的问题:如何将新兴的“任意分割模型”(SAM)的知识转移,SAM展示了令人印象深刻的零样本实例分割能力,以学习一种紧凑的全景语义分割模型,即学生模型,而不需要任何标记数据。这是一个相当大的挑战,因为SAM无法提供语义标签,并且SAM和学生之间存在巨大的容量差距。为此,我们提出了一个新的框架,称为GoodSAM,引入了一个教师助理(TA)来提供语义信息,与SAM集成以生成集成的logit以实现知识转移。具体而言,我们提出了一个“失真感知矫正”(DAR)模块,通过施加预测级别的一致性和边界增强来解决全景图像的失真问题。这在全景图像上微妙地增强了TA的预测能力。DAR然后结合了跨任务互补融合块,以自适应地合并SAM和TA的预测,以获得更可靠的集成logit。此外,我们引入了一个多层级知识适应(MKA)模块,以有效地转移来自TA和集成logit的多层级特征知识,以学习紧凑的学生模型。在两个基准测试上的大量实验表明,我们的GoodSAM在比现有领域自适应方法提高3.75%的mIoU方面取得了显着的成果。此外,我们最轻量级的模型仅具有3.7M的参数,但实现了与SOTA方法相当的性能。
- 图表
- 解决问题如何将零标注数据下的Segment Anything Model(SAM)的知识迁移到全景语义分割中,从而学习一个紧凑的学生模型?
- 关键思路提出了一个名为GoodSAM的框架,引入了一个教师助手(TA)来提供语义信息,与SAM集成以生成集成logits来实现知识转移。其中,使用Distortion-Aware Rectification(DAR)模块来解决全景图像失真问题,并引入Multi-level Knowledge Adaptation(MKA)模块来有效地传递多层特征知识。
- 其它亮点实验结果表明,GoodSAM相比现有的领域自适应方法,可以实现+3.75%的mIoU改进。同时,最轻量级的模型仅有3.7M参数,但性能与现有的最佳方法相当。论文使用了两个基准数据集,并提供了开源代码。
- 相关研究包括:'Panoramic Segmentation with Spatial-Aware Embedding'、'Panoramic Semantic Segmentation with Pixel-to-Panorama Progressive Learning'、'PanoNet: Real-time Panoramic Segmentation via Nearest Neighbor Pixel Voting'等。
沙发等你来抢
去评论
评论
沙发等你来抢