全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点

在本文中提出了一种简单的注意力机制Box-Attention。它支持网格特征之间的空间交互(从感兴趣的Box中采样)，并提高了Transformer针对多个视觉任务的学习能力。

具体来说，介绍的BoxeR，即Box Transformer的缩写，它通过预测输入特征图上的参考窗口的转换来处理一组Box。BoxeR通过考虑它的网格结构来计算这些Box上的注意力权重。值得注意的是，BoxeR-2D在其注意力模块中自然地对Box信息进行推理，使其适合于端到端实例检测和分割任务。通过学习box-attention模块中的旋转不变性，BoxeR-3D能够从鸟瞰平面生成判别信息，用于三维端到端目标检测。

实验表明，提出的BoxeR-2D在COCO检测上取得了更好的结果，在COCO实例分割上达到了与完善且高度优化的Mask R-CNN相当的性能。BoxeR-3D在没有任何特定类别的优化的情况下，已经在Waymo Open的车辆类别中获得不错的结果。