ECCV 2020 | FPT：借鉴Transformer，多方向融合特征金字塔

本篇论文提出用于特征金字塔的高效特征交互方法FPT，包含3种精心设计的特征增强操作，分别用于借鉴层内特征进行增强、借鉴高层特征进行增强以及借鉴低层特征进行增强，FPT的输出维度与输入一致，能够自由嵌入到各种包含特征金字塔的检测算法中，从实验结果来看，效果不错。

论文的思想主要来自两个，一个是特征金字塔结构，一个是Non-local网络：

首先是特征金字塔，如图1a，CNN网络以层级结构的形式逐层提取更丰富的特征，然后使用最后的特征层进行预测。但对于一些小物体而言，最后一层的特征图往往没有足够的像素点进行预测。为了更好地对不同大小的物体进行预测，人们提出图1b的金字塔特征，大物体使用高层的粗粒度特征，小物体使用底层的细粒度特征。对于一些pixel-level任务，比如语义分割，需要综合不同层的上下文信息进行细致的预测，所以就需要图1c的预测结构。
其次是Non-local network，该网络借鉴了NLP模型的Self-attention思想，如图1d所示，能够借鉴特征图上的其它特征点来对当前特征点进行增强。

基于上面两个思想，论文提出了FPT(Feature Pyramid Transformer)，结构如图1e所示，核心在特征金字塔上进行类似Non-local的特征增强，然后再使用多层特征进行预测。FPT设计了3种特征增强操作，也是论文的主要贡献：

感兴趣的可以继续戳链接阅读。

内容中包含的图片若涉及版权问题，请及时与我们联系删除