【论文标题】RelationNet++: Bridging Visual Representations for Object Detection via Transformer Decoder 【作者团队】Cheng Chi,Fangyun Wei,Han Hu 【发表时间】2020/10/29 【论文链接】https://arxiv.org/pdf/2010.15831.pdf 【代码链接】https://github.com/microsoft/RelationNet2
【推荐理由】 本文已被 NeurIPS 2020 接收为 Spotlight 论文,使用与 Transformer 解码器相似的基于注意力的解码模块融合了各种目标检测表征,并设计了相应的计算效率提升方法,有效提升了目标检测平均精度。
现有的目标检测框架通常都只是用到了单一形式的物体/部分表征(即 RetinaNet 和 Faster R-CNN 中的 anchor/proposal 的矩形边界框、FCOS 和 RepPoints 中的中心点、CornerNete 中的角点)。然而,这些表征往往可以从不同的层面上促使框架获得好的性能(例如,更好的分类效果或更精细的位置)。由于不同的表征之间存在异质性以及某些非网格化的特征提取方式,我们通常很难在单个框架中将这些表征结合起来,从而很好地利用每一种表征的长处。本文提出了桥接视觉表征(BVR),这是一种与 Transformer 解码器相似的基于注意力的解码模块,以一种端到端的方式将其余表征桥接到基于某一种表征构建的目标检测器中。其余的表征将会作为一组「键」实例来增强原始检测器中主要的「查询」表征特征。为了提升解码器模块的计算效率,本文作者提出了包括「键采样」方法和「共享位置嵌入」方法在内的技术。BVR 可以即插即用,能够有效地将其它的表征桥接到当下流行的目标检测框架中(包括 RetinaNet、Faster RCNN、FCOS、ATSS),可以将平均精度提升 1.5-3.0。

本文的贡献如下: (1)提出了一种名为 BVR 的通用模块,用于将各种异质的视觉表征桥接起来,融合各种表征的长处。BVR 模块可以即插即用,并不会损害由主要的表征得到的整体推理过程。 (2)提出了包括「键采样」方法和「共享位置嵌入」方法在内新的技术提升桥接模块的计算效率。 (3)BVR 模块能有效提升 RetinaNet、Faster RCNN、FCOS、ATSS 这四种流行的目标检测器的性能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢