论文地址:https://arxiv.org/abs/2203.09093
摘要
一阶段目标检测旨在仅根据给定的实例检测新对象。由于数据稀缺,当前的方法探索了各种特征融合,以获得直接转移的元知识。然而,他们的表现通常不令人满意。在本文中,我们将其归因于不适当的相关方法,这些方法因忽略空间结构和尺度差异而缺乏查询支持(Query-Support)语义。经过分析,我们利用注意力机制,并提出一个名为“语义一致的融合Transformer(SaFT)”的简单但有效的架构来解决这些问题。具体而言,我们为SaFT配备了垂直融合模块(VFM),用于跨尺度语义增强和用于跨样本特征融合的水平融合模块(HFM)。他们共同将每个特征点的视觉范围从查询中的全部增强特征金字塔扩大到促进语义对准的关联。多个基准测试的广泛实验证明了我们框架的优势。它为一阶段的基线带来显着的性能增长,且不需要对新类进行微调,从而将最新结果提高到更高的水平。
主要贡献
- 据我们所知,我们的语义一致性融合Transformer是第一个使用无监督的一阶段探测器执行离线Onehot对象检测任务的,比最先进的两阶段模型有更好的性能。
- 我们讨论了查询支持(Query-Support)特征融合的问题,并提出了一种统一的注意力机制来解决空间和规模上的语义不重合。我们的部署可以用作一般融合颈。
- 通过定性和定量实验,我们证明了我们的新型语义融合通过涉及跨层面的长距离关系并收集更全面的元知识,优于常规关联方法。
实验结果
该模型在VOC 2007数据集中表现如下图:
在COCO 2017数据集中表现如下图:
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢