论文地址:https://arxiv.org/pdf/2203.15102.pdf
开源代码:https://github.com/tfzhou/ProtoSeg
摘要
尽管具有不同的网络设计(基于FCN的或基于注意力),但仍可以通过考虑软效量重量或可学习的类,但可以将普遍的语义细分解决方案(基于FCN或基于注意力的)和掩盖解码策略(基于参数软键或基于像素Query的参数Quern)作为可学习的类别,但可以将其放置在一个类别中原型。鉴于这种原型观点,这项研究发现了这种参数分割制度的几个局限性,并提出了基于非可行原型的非参数替代方案。我们的模型没有以完全参数方式来学习每个类的单个权重/查询向量,而是将每个类代表为一组非可学习的原型,仅依赖于该类中几个训练像素的平均特征。因此,通过检索的非参数最接近原型来实现密集的预测。这使我们的模型可以通过优化嵌入式像素和锚定原型之间的布置直接形成像素嵌入空间。它能够以恒定数量的可学习参数来处理任意数量的类。我们从经验上表明,使用基于FCN的和基于注意力的分割模型(即HRNet,Swin,SegFormer)和backbones(即ResNet,HRNet,Swin, MiT),我们的非参数框架在多个数据集(即ADE20K,CityScapes,Coco-stuff)上产生了令人信服的结果,并且在大型摄影库中表现良好。我们希望这项工作会引起当前事实上的语义细分模型设计的重新考虑。
模型优势
我们的模型具有三个吸引人的优势:首先,每个类都用一组原型,捕获班级特征和阶层内差异来抽象。有了原型的清晰含义,也可以增强可解释性,每个像素的预测可以直观地理解为其在嵌入空间中最接近的类中心的参考[3,7]。其次,由于非参数性质,推广性得到改善。大型Vocabulary语义分割也可以有效地处理,因为可学习量的原型参数不再限制为类数(即0 vs \( D*C \))。第三,通过原型锚定的度量学习,像素嵌入空间形成了井结构,最终使细分预测受益。
实验
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢