- 简介Panoptic Scene Graph Generation(PSG)旨在基于全景分割掩模生成全面的图形结构表示。尽管在PSG方面取得了显著进展,但几乎所有现有方法都忽略了形状感知特征的重要性,这些特征本质上关注对象的轮廓和边界。为了填补这一差距,我们提出了一种模型无关的Curricular shApe-aware FEature(CAFE)学习策略,用于PSG。具体而言,我们将形状感知特征(即掩模特征和边界特征)纳入PSG,超越了仅依赖于bbox特征的局限性。此外,我们从人类认知中汲取灵感,提出以易到难的方式集成形状感知特征。为了实现这一目标,我们将谓词分为三组,基于认知学习难度相应地将训练过程分为三个阶段。每个阶段都利用专门的关系分类器来区分特定组的谓词。随着谓词的学习难度增加,这些分类器配备了越来越复杂的特征。我们还采用知识蒸馏来保留早期阶段获得的知识。由于其模型无关性,CAFE可以无缝地纳入任何PSG模型。在两个PSG任务的广泛实验和消融试验中,无论是在鲁棒性PSG还是零样本PSG下,我们提出的CAFE都表现出卓越和稳健的优势,远远超过现有的最先进方法。
- 图表
- 解决问题本文旨在解决Panoptic Scene Graph Generation (PSG)中忽略形状感知特征的问题。作者提出了一个新的模型无关的学习策略——Curricular shApe-aware FEature (CAFE),以将形状感知特征(即掩膜特征和边界特征)纳入PSG模型中。
- 关键思路本文的关键思路是将形状感知特征逐步引入PSG模型中。作者将谓词分为三组,分别代表认知学习难度的不同阶段,并相应地将训练过程分为三个阶段。每个阶段都使用专门的关系分类器来区分特定组的谓词。
- 其它亮点本文的亮点在于提出了一个新的模型无关的学习策略,可以无缝地集成到任何PSG模型中。作者还使用知识蒸馏来保留在早期阶段获得的知识。实验结果表明,CAFE在两个PSG任务中都表现出了优异的性能,并且比现有的最先进方法表现更好。
- 最近在这个领域中,还有一些相关的研究,如SGGNet、SGGAW、SGGNN等。
沙发等你来抢
去评论
评论
沙发等你来抢