语义分割和实例分割是两个重要且相互关联的视觉问题,它们之间的潜在联系使得全景分割可以统一这两个任务。在全景分割中,图像信息被分成两类:Things 和 Stuff。其中 Things 是可数的实例 (例如,人、汽车、自行车),每个实例都有一个惟一的 id,以区别于其他实例。Stuff 是指无定形和不可数的区域 (如天空、草原和雪),没有实例 id。
Things 和 Stuff 之间的差异也导致了不同的处理方式。许多工作只是将全景分割分解为 Things 实例分割任务和 Stuff 语义分割任务。然而,这种分离处理策略会增加模型的复杂性和不必要的工件。虽然一些研究考虑自底向上的实例分割方法,但这种方法仍然保持了类似的分离策略。还有一些方法在处理 Things 和 Stuff 任务时,试图通过在一个统一的框架中来简化全景分割 pipeline 来实现。
来自南京大学、香港大学、英伟达等机构的研究者提出了 Panoptic SegFormer,这是一个使用 Transformer 进行端到端全景分割的通用框架。该方法扩展了 Deformable DETR,并为 Things 和 Stuff 提供了统一的 mask 预测工作流程,使全景分割 pipeline 简洁高效。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢